1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
AI医生终于有了硬标尺!全球首个专病循证评测框架GAPS发布,蚂蚁联合北大王俊院士团队出品
2025年12月,蚂蚁健康与北京大学人民医院王俊院士团队联合发布了全球首个专病循证评测框架GAPS(Grounding, Adequacy, Perturbation, Safety),聚焦肺癌领域,包含92个问题和1691个临床要点。该框架通过全自动化的评测工具链,首次系统评估AI医疗模型的循证决策能力、回答完备性、鲁棒性与安全性,填补了现有医疗AI评测的空白。研究显示,主流大模型在事实记忆上表现优异,但在不确定性推理和临床完备性方面存在明显短板。GAPS为医疗AI从“技术驱动”向“临床价值驱动”转型提供了重要标准,其评测集与自动化框架已全面公开,未来可扩展至心血管、儿科等更多专科领域。论文与相关资源已在arXiv和Hugging Face平台发布。
智能涌动
12-29 15:25:51
GAPS
医疗AI评测
循证医学
分享至
打开微信扫一扫
内容投诉
生成图片
斯坦福临床医疗AI横评,DeepSeek把谷歌OpenAI都秒了
斯坦福临床医疗AI横评:DeepSeek R1以66%胜率夺冠 斯坦福最新发布的医疗任务大模型评测显示,DeepSeek R1以66%胜率领先,超越谷歌、OpenAI等知名模型。此次评测聚焦临床医生日常场景,而非传统医疗执照考试题。 研究团队构建了包含35个基准测试的MedHELM框架,覆盖22...
幻彩逻辑RainbowLogic
06-03 17:01:06
DeepSeek
大模型临床评估
斯坦福医疗AI评测
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序