正文:2025年7月,上海交大与深势科技团队发布新研究,在“人类最后的考试”(HLE)中取得32.1分,首次突破30分大关,刷新纪录。该测试集由AI安全中心和Scale AI发起,以研究生难度著称,涵盖数学、物理、生物医药等多学科,题目难以检索且需明确答案。团队推出工具增强推理智能体X-Master及多智能体工作流系统X-Masters,并开源方案。实验显示,X-Masters在HLE纯文本子集表现优于现有模型,尤其在生物学/医学领域达27.6%正确率,超越Biomni和STELLA。研究使用DeepSeek-R1-0528作为推理模型,通过分散-堆叠架构显著提升性能。
原文链接
本文链接:https://kx.umi6.com/article/21428.html
转载请注明文章出处
相关推荐
换一换
华为昇腾适配支持 DeepSeek-R1 复现项目 Open R1
2025-02-11 18:59:29
“价格屠夫”DeepSeek的理想主义:开源、降本与AI普惠
2025-01-28 08:43:38
攻略在手,轻松玩转 DeepSeek
2025-02-08 21:33:12
大模型六小虎首家 零一万物海外AI应用接入DeepSeek-R1
2025-02-11 17:01:49
黄仁勋:DeepSeek R1点燃了全球热情
2025-02-27 21:42:17
DeepSeek-R1联网搜索测评公布 腾讯元宝位列第一
2025-03-11 18:45:49
零跑汽车:部署 DeepSeek-R1 的智能座舱即将上线
2025-02-09 09:42:19
腾讯元宝接入DeepSeek-R1满血版,首次引入第三方模型,能联网能调用微信独家生态
2025-02-13 16:04:01
郭明錤:DeepSeek 加速生成式 AI 产业迈入新阶段
2025-01-31 18:00:28
DeepSeek登《Nature》封面,梁文锋带队,首次回应争议
2025-09-18 13:54:10
消息称微信正在内测接入 DeepSeek-R1 大模型
2025-02-15 22:10:02
QQ 音乐已集成满血版 DeepSeek-R1,AI 助手音乐问答更精准
2025-02-11 08:39:50
英伟达宣布创造满血 DeepSeek-R1 模型 AI 推理性能的世界纪录
2025-03-19 09:22:05
666 文章
432825 浏览
24小时热文
更多
-
2026-01-23 06:34:26 -
2026-01-23 00:20:44 -
2026-01-22 23:18:34