正文:2025年7月,上海交大与深势科技团队发布新研究,在“人类最后的考试”(HLE)中取得32.1分,首次突破30分大关,刷新纪录。该测试集由AI安全中心和Scale AI发起,以研究生难度著称,涵盖数学、物理、生物医药等多学科,题目难以检索且需明确答案。团队推出工具增强推理智能体X-Master及多智能体工作流系统X-Masters,并开源方案。实验显示,X-Masters在HLE纯文本子集表现优于现有模型,尤其在生物学/医学领域达27.6%正确率,超越Biomni和STELLA。研究使用DeepSeek-R1-0528作为推理模型,通过分散-堆叠架构显著提升性能。
原文链接
本文链接:https://kx.umi6.com/article/21428.html
转载请注明文章出处
相关推荐
换一换
百度智能云宣布上线DeepSeek-R1/V3
2025-02-03 20:16:14
手机端接入DeepSeek-R1:纯小白教程 三分钟搞定
2025-02-18 18:29:35
深圳大学联合华为满血版DeepSeek-R1上线
2025-02-21 09:46:16
小布助手接入 DeepSeek-R1 满血版,OPPO 公布 40 多款适配机型
2025-03-08 10:45:20
支持 API 调用,国家超算互联网平台上线 DeepSeek-R1 满血版
2025-02-09 22:53:25
全国首个,深圳海关智能查验机器人引入“满血版”DeepSeek-R1
2025-04-07 09:46:17
超越 DeepSeek-R1,英伟达开源模型 Llama-Nemotron 登顶
2025-05-06 17:56:45
DeepSeek-R1 模型全面上线亚马逊云科技
2025-02-01 00:06:30
DeepSeek-R1秘籍轻松迁移,只需原始数据0.3% | 邱锡鹏团队联合出品
2025-02-24 16:26:25
企业微信接入DeepSeek
2025-02-21 13:52:13
华为小艺助手上线DeepSeek-R1 Beta版
2025-02-05 15:13:40
DeepSeek,引爆AI手机?
2025-02-07 12:53:26
华安证券完成DeepSeekR1模型本地化部署 布局券商已十家
2025-02-08 18:34:00
725 文章
558817 浏览
24小时热文
更多
-
2026-04-24 13:15:05 -
2026-04-24 13:14:01 -
2026-04-24 13:12:56