斯坦福临床医疗AI横评:DeepSeek R1以66%胜率夺冠
斯坦福最新发布的医疗任务大模型评测显示,DeepSeek R1以66%胜率领先,超越谷歌、OpenAI等知名模型。此次评测聚焦临床医生日常场景,而非传统医疗执照考试题。
研究团队构建了包含35个基准测试的MedHELM框架,覆盖22个子类别的医疗任务,并由29名执业临床医生验证分类体系。最终,DeepSeek R1以宏观平均分0.75领先,o3-mini以0.77分居次席,Claude 3.7 Sonnet和3.5 Sonnet分别获得0.73分。
评测涵盖临床决策支持、病例生成、患者沟通、医学研究辅助及管理流程五大领域,发现自由文本生成任务表现优于结构化推理任务。此外,团队采用大语言模型评审团方法,与临床医生评分一致性达0.47,高于传统指标。
成本效益分析显示,推理模型DeepSeek R1和o3-mini分别花费1806美元和1722美元,而Claude 3.5 Sonnet和Claude 3.7 Sonnet以较低成本实现约0.63胜率,性价比突出。
论文及更多详情可查阅相关链接。
原文链接
本文链接:https://kx.umi6.com/article/19630.html
转载请注明文章出处
相关推荐
换一换
别太相信DeepSeek
2025-08-14 18:02:41
黄仁勋谈中国AI创新:以令人难以置信的速度前进
2025-07-16 17:12:34
K2开源大模型,会是Kimi的DeepSeek时刻吗?
2025-07-14 11:19:10
德国要求苹果与谷歌下架DeepSeek应用 中方已多次明确表态
2025-06-28 12:19:15
DeepSeek刷屏论文背后:除了梁文锋,还有一个18岁中国高中生,曾写出神级提示词
2025-09-19 11:14:40
deepseek关联公司公布大语言模型部署方法专利
2025-08-01 14:04:10
DeepSeek等开源模型,更“浪费”token吗?
2025-10-11 10:17:13
DeepSeek推理最高提速6倍!开源研究:加装「思维进度条」,计算量减少30%
2025-07-08 14:44:52
周鸿祎解读DeepSeek更新:中美AI实力已平起平坐
2025-06-09 17:33:29
梁文锋,准备战斗
2025-07-30 17:51:33
Kimi和DeepSeek又撞车?
2025-06-04 15:24:39
DeepSeek给中国软件埋了一个「地雷」?
2025-06-24 09:14:11
DeepSeek被曝开发AI智能体模型:能自主完成多步工作
2025-09-05 08:15:12
612 文章
371518 浏览
24小时热文
更多
-
2025-12-23 00:09:56 -
2025-12-23 00:08:48 -
2025-12-22 23:07:36