正文:2025年7月,上海交大与深势科技团队发布新研究,在“人类最后的考试”(HLE)中取得32.1分,首次突破30分大关,刷新纪录。该测试集由AI安全中心和Scale AI发起,以研究生难度著称,涵盖数学、物理、生物医药等多学科,题目难以检索且需明确答案。团队推出工具增强推理智能体X-Master及多智能体工作流系统X-Masters,并开源方案。实验显示,X-Masters在HLE纯文本子集表现优于现有模型,尤其在生物学/医学领域达27.6%正确率,超越Biomni和STELLA。研究使用DeepSeek-R1-0528作为推理模型,通过分散-堆叠架构显著提升性能。
原文链接
本文链接:https://kx.umi6.com/article/21428.html
转载请注明文章出处
相关推荐
.png)
换一换
国产AI搜索接入DeepSeek-R1!我们深度试玩了一下
2025-02-03 10:06:40
腾讯元宝接入Deepseek-R1满血版 支持联网搜索并整合公众号信息源
2025-02-13 17:23:01
支持 API 调用,国家超算互联网平台上线 DeepSeek-R1 满血版
2025-02-09 22:53:25
465 文章
82783 浏览
24小时热文
更多

-
2025-07-20 08:01:35
-
2025-07-19 22:57:32
-
2025-07-19 21:58:20