医疗AI评测 - AI优秘圈

1

免责声明：Al优秘圈所有资讯仅代表作者个人观点，不构成任何投资理财建议。请确保访问网址为（kx.umi6.com) 投诉及建议

7*24小时快讯

AI科普

合作

扫一扫体验小程序

小杨哥

个人资料

曝光推广

客户留言

投诉及建议

退出登录

×

7*24小时快讯 AI科普合作

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

AI医生终于有了硬标尺！全球首个专病循证评测框架GAPS发布，蚂蚁联合北大王俊院士团队出品

2025年12月，蚂蚁健康与北京大学人民医院王俊院士团队联合发布了全球首个专病循证评测框架GAPS（Grounding, Adequacy, Perturbation, Safety），聚焦肺癌领域，包含92个问题和1691个临床要点。该框架通过全自动化的评测工具链，首次系统评估AI医疗模型的循证决策能力、回答完备性、鲁棒性与安全性，填补了现有医疗AI评测的空白。研究显示，主流大模型在事实记忆上表现优异，但在不确定性推理和临床完备性方面存在明显短板。GAPS为医疗AI从“技术驱动”向“临床价值驱动”转型提供了重要标准，其评测集与自动化框架已全面公开，未来可扩展至心血管、儿科等更多专科领域。论文与相关资源已在arXiv和Hugging Face平台发布。

原文链接

智能涌动

12-29 15:25:51

GAPS

医疗AI评测

循证医学

分享至

打开微信扫一扫

内容投诉

生成图片

斯坦福临床医疗AI横评，DeepSeek把谷歌OpenAI都秒了

斯坦福临床医疗AI横评：DeepSeek R1以66%胜率夺冠斯坦福最新发布的医疗任务大模型评测显示，DeepSeek R1以66%胜率领先，超越谷歌、OpenAI等知名模型。此次评测聚焦临床医生日常场景，而非传统医疗执照考试题。研究团队构建了包含35个基准测试的MedHELM框架，覆盖22...

原文链接

幻彩逻辑RainbowLogic

06-03 17:01:06

DeepSeek

大模型临床评估

斯坦福医疗AI评测

分享至

打开微信扫一扫

内容投诉

生成图片

加载更多

暂无内容

发布合作

推广产品

AI热搜

更多

1

“龙虾” 炸翻AI圈！雷军下场鹅厂排长队

2

因拒绝美军方不受限制地使用其AI模型美国一科技公司被列入“黑名单”

3

劝视频博主别拿龙虾起号 7×24小时全自动碳基生物真卷不过

4

彻底告别VE与VAE！商汤硬核重构多模态：砍掉所有中间编码器

5

看完背后冷汗流！研究：先拥抱AI的行业或许会先被AI吃掉

扫一扫体验小程序