循证医学 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

AI医生终于有了硬标尺！全球首个专病循证评测框架GAPS发布，蚂蚁联合北大王俊院士团队出品

2025年12月，蚂蚁健康与北京大学人民医院王俊院士团队联合发布了全球首个专病循证评测框架GAPS（Grounding, Adequacy, Perturbation, Safety），聚焦肺癌领域，包含92个问题和1691个临床要点。该框架通过全自动化的评测工具链，首次系统评估AI医疗模型的循证决策能力、回答完备性、鲁棒性与安全性，填补了现有医疗AI评测的空白。研究显示，主流大模型在事实记忆上表现优异，但在不确定性推理和临床完备性方面存在明显短板。GAPS为医疗AI从“技术驱动”向“临床价值驱动”转型提供了重要标准，其评测集与自动化框架已全面公开，未来可扩展至心血管、儿科等更多专科领域。论文与相关资源已在arXiv和Hugging Face平台发布。

原文链接

智能涌动

12-29 15:25:51

GAPS

医疗AI评测

循证医学

分享至

打开微信扫一扫

内容投诉

生成图片

百川发布循证增强大模型 M2 Plus，号称“医生版 ChatGPT”

10月22日，百川发布循证增强医疗大模型Baichuan-M2 Plus，号称“医生版ChatGPT”，并同步升级应用百小应及开放API。新模型首创六源循证推理范式，显著降低医疗幻觉率，较通用大模型低约3倍，性能优于美国产品OpenEvidence，可信度媲美资深临床医生。M2 Plus在多国医学考试中表现优异，如美国执业医师资格考试（USMLE）获97分，中国执业医师资格考试达568分，远超及格线。其循证检索与推理能力确保回答精准且可验证，适用于辅助诊疗、患者教育等场景。百川通过开源与开放API，推动AI医疗迈向可信可用阶段，助力真实临床场景落地。

原文链接