斯坦福临床医疗AI横评，DeepSeek把谷歌OpenAI都秒了

2025-06-03 17:01:06

幻彩逻辑RainbowLogic

发布在

科普

阅读：673

斯坦福临床医疗AI横评：DeepSeek R1以66%胜率夺冠

斯坦福最新发布的医疗任务大模型评测显示，DeepSeek R1以66%胜率领先，超越谷歌、OpenAI等知名模型。此次评测聚焦临床医生日常场景，而非传统医疗执照考试题。

研究团队构建了包含35个基准测试的MedHELM框架，覆盖22个子类别的医疗任务，并由29名执业临床医生验证分类体系。最终，DeepSeek R1以宏观平均分0.75领先，o3-mini以0.77分居次席，Claude 3.7 Sonnet和3.5 Sonnet分别获得0.73分。

评测涵盖临床决策支持、病例生成、患者沟通、医学研究辅助及管理流程五大领域，发现自由文本生成任务表现优于结构化推理任务。此外，团队采用大语言模型评审团方法，与临床医生评分一致性达0.47，高于传统指标。

成本效益分析显示，推理模型DeepSeek R1和o3-mini分别花费1806美元和1722美元，而Claude 3.5 Sonnet和Claude 3.7 Sonnet以较低成本实现约0.63胜率，性价比突出。

论文及更多详情可查阅相关链接。

原文链接

本文链接：https://kx.umi6.com/article/19630.html

转载请注明文章出处

DeepSeek

大模型临床评估

斯坦福医疗AI评测

分享至

打开微信扫一扫

内容投诉

生成图片

612 文章

371518 浏览

24小时热文