2025年12月,蚂蚁健康与北京大学人民医院王俊院士团队联合发布了全球首个专病循证评测框架GAPS(Grounding, Adequacy, Perturbation, Safety),聚焦肺癌领域,包含92个问题和1691个临床要点。该框架通过全自动化的评测工具链,首次系统评估AI医疗模型的循证决策能力、回答完备性、鲁棒性与安全性,填补了现有医疗AI评测的空白。研究显示,主流大模型在事实记忆上表现优异,但在不确定性推理和临床完备性方面存在明显短板。GAPS为医疗AI从“技术驱动”向“临床价值驱动”转型提供了重要标准,其评测集与自动化框架已全面公开,未来可扩展至心血管、儿科等更多专科领域。论文与相关资源已在arXiv和Hugging Face平台发布。
原文链接
本文链接:https://kx.umi6.com/article/30914.html
转载请注明文章出处
相关推荐
换一换
百川发布循证增强大模型 M2 Plus,号称“医生版 ChatGPT”
2025-10-22 14:45:56
AI医生终于有了硬标尺!全球首个专病循证评测框架GAPS发布,蚂蚁联合北大王俊院士团队出品
2025-12-29 15:25:51
华为全球征集!悬赏300万元解决这两大技术难题
2025-12-26 17:56:26
江苏苏州的企查查冲击IPO
2025-12-27 04:16:11
巴菲特谢幕,手握万亿资金的继任者会加速拥抱AI吗?
2025-12-29 15:33:48
金融投资联盟在京成立 助力长期资本与耐心资本培育发展
2025-12-28 13:29:06
今年,消费彻底变了
2025-12-29 00:50:57
QPU要想取代GPU,2026年太关键
2025-12-28 04:07:21
摄影大赛一等奖作品被指AI生成:建筑边缘曲直失真
2025-12-29 10:15:06
今年TRAE写的代码:100000000000行!超50%程序员每天在按Tab键
2025-12-29 14:23:35
2025,消费行业的5个切面
2025-12-27 04:15:05
网信办:AI 拟人化互动服务提供者应当建立未成年人模式
2025-12-27 16:42:26
国家网信办:拟人化互动服务提供者注册用户达100万以上或者月活跃用户达10万以上的应开展安全评估
2025-12-27 15:44:11
648 文章
406011 浏览
24小时热文
更多
-
2025-12-29 16:31:29 -
2025-12-29 16:30:19 -
2025-12-29 16:29:12