斯坦福临床医疗AI横评:DeepSeek R1以66%胜率夺冠
斯坦福最新发布的医疗任务大模型评测显示,DeepSeek R1以66%胜率领先,超越谷歌、OpenAI等知名模型。此次评测聚焦临床医生日常场景,而非传统医疗执照考试题。
研究团队构建了包含35个基准测试的MedHELM框架,覆盖22个子类别的医疗任务,并由29名执业临床医生验证分类体系。最终,DeepSeek R1以宏观平均分0.75领先,o3-mini以0.77分居次席,Claude 3.7 Sonnet和3.5 Sonnet分别获得0.73分。
评测涵盖临床决策支持、病例生成、患者沟通、医学研究辅助及管理流程五大领域,发现自由文本生成任务表现优于结构化推理任务。此外,团队采用大语言模型评审团方法,与临床医生评分一致性达0.47,高于传统指标。
成本效益分析显示,推理模型DeepSeek R1和o3-mini分别花费1806美元和1722美元,而Claude 3.5 Sonnet和Claude 3.7 Sonnet以较低成本实现约0.63胜率,性价比突出。
论文及更多详情可查阅相关链接。
原文链接
本文链接:https://kx.umi6.com/article/19630.html
转载请注明文章出处
相关推荐
.png)
换一换
微软又砍了2GW数据中心租赁需求?
2025-03-31 13:32:12
阿里千问与DeepSeek入选全球AI开源贡献榜前十
2025-06-12 18:42:16
在DeepSeek老家发新模型,豆包怎么想的?
2025-04-18 16:15:50
443 文章
65098 浏览
24小时热文
更多

-
2025-07-20 08:01:35
-
2025-07-19 22:57:32
-
2025-07-19 21:58:20