正文:2025年7月,上海交大与深势科技团队发布新研究,在“人类最后的考试”(HLE)中取得32.1分,首次突破30分大关,刷新纪录。该测试集由AI安全中心和Scale AI发起,以研究生难度著称,涵盖数学、物理、生物医药等多学科,题目难以检索且需明确答案。团队推出工具增强推理智能体X-Master及多智能体工作流系统X-Masters,并开源方案。实验显示,X-Masters在HLE纯文本子集表现优于现有模型,尤其在生物学/医学领域达27.6%正确率,超越Biomni和STELLA。研究使用DeepSeek-R1-0528作为推理模型,通过分散-堆叠架构显著提升性能。
原文链接
本文链接:https://kx.umi6.com/article/21428.html
转载请注明文章出处
相关推荐
换一换
海外用户也有份,传音 Infinix AI 接入 DeepSeek-R1 满血版
2025-02-24 00:07:55
硅基流动:全面支持基于昇腾算力的DeepSeek-R1&V3私有化集群部署
2025-02-15 07:58:46
联通云上架 DeepSeek-R1 系列模型
2025-02-05 16:06:57
AI的胡编乱造,正在淹没中文互联网
2025-03-05 16:10:58
OpenAI 阿尔特曼:DeepSeek-R1 令人印象深刻,将推出更好的模型
2025-01-28 13:47:03
OPPO ColorOS 小布助手完成 DeepSeek R1 最新版升级
2025-06-09 15:31:10
小米澎湃 HyperOS 悄悄下线「超级小爱」“打开深度思考”等 DeepSeek-R1 模型唤醒词
2025-02-15 13:04:37
百度智能云宣布上线DeepSeek-R1/V3
2025-02-03 20:16:14
企业微信接入DeepSeek
2025-02-21 13:52:13
深圳大学联合华为满血版DeepSeek-R1上线
2025-02-21 09:46:16
DeepSeek-R1 论文登上《自然》封面,通讯作者为梁文锋
2025-09-18 09:48:42
QQ浏览器接入DeepSeek-R1满血版
2025-02-16 14:28:42
vivo 正式上线满血版 DeepSeek-R1
2025-02-25 17:01:36
691 文章
480189 浏览
24小时热文
更多
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18