1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

斯坦福临床医疗AI横评:DeepSeek R1以66%胜率夺冠

斯坦福最新发布的医疗任务大模型评测显示,DeepSeek R1以66%胜率领先,超越谷歌、OpenAI等知名模型。此次评测聚焦临床医生日常场景,而非传统医疗执照考试题。

研究团队构建了包含35个基准测试的MedHELM框架,覆盖22个子类别的医疗任务,并由29名执业临床医生验证分类体系。最终,DeepSeek R1以宏观平均分0.75领先,o3-mini以0.77分居次席,Claude 3.7 Sonnet和3.5 Sonnet分别获得0.73分。

评测涵盖临床决策支持、病例生成、患者沟通、医学研究辅助及管理流程五大领域,发现自由文本生成任务表现优于结构化推理任务。此外,团队采用大语言模型评审团方法,与临床医生评分一致性达0.47,高于传统指标。

成本效益分析显示,推理模型DeepSeek R1和o3-mini分别花费1806美元和1722美元,而Claude 3.5 Sonnet和Claude 3.7 Sonnet以较低成本实现约0.63胜率,性价比突出。

论文及更多详情可查阅相关链接。

原文链接
本文链接:https://kx.umi6.com/article/19630.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
梁文锋等来及时雨
2025-07-15 17:50:04
阿里千问与DeepSeek入选全球AI开源贡献榜前十
2025-06-12 18:42:16
好险,差点被DeepSeek幻觉害死
2025-07-09 15:08:10
DeepSeek线上模型版本升级至V3.1
2025-08-19 20:04:27
大模型退火之后,AI手机还好吗
2025-06-25 08:26:26
DeepSeek新模型上线!引入DSA新稀疏注意力,还又狙了CUDA一枪
2025-09-29 19:13:01
在史上最大规模WAIC中寻找DeepSeek
2025-07-28 09:10:59
为什么DeepSeek还未能撼动OpenAI
2025-06-04 09:18:31
腾讯在AI上做对了什么?有哪些困境?
2025-05-27 09:15:32
俩人拼出40万的Mac Studio“缝合怪”,双开满血DeepSeek 都不在话下
2025-08-09 11:28:33
人民呼唤DeepSeek!
2025-07-16 12:02:16
当DeepSeek都认为“DeepSeek向王一博道歉”了
2025-07-04 12:43:36
DeepSeek推理最高提速6倍!开源研究:加装「思维进度条」,计算量减少30%
2025-07-08 14:44:52
24小时热文
更多
扫一扫体验小程序