正文:2025年7月,上海交大与深势科技团队发布新研究,在“人类最后的考试”(HLE)中取得32.1分,首次突破30分大关,刷新纪录。该测试集由AI安全中心和Scale AI发起,以研究生难度著称,涵盖数学、物理、生物医药等多学科,题目难以检索且需明确答案。团队推出工具增强推理智能体X-Master及多智能体工作流系统X-Masters,并开源方案。实验显示,X-Masters在HLE纯文本子集表现优于现有模型,尤其在生物学/医学领域达27.6%正确率,超越Biomni和STELLA。研究使用DeepSeek-R1-0528作为推理模型,通过分散-堆叠架构显著提升性能。
原文链接
本文链接:https://kx.umi6.com/article/21428.html
转载请注明文章出处
相关推荐
换一换
硅基流动:全面支持基于昇腾算力的DeepSeek-R1&V3私有化集群部署
2025-02-15 07:58:46
大模型六小虎首家 零一万物海外AI应用接入DeepSeek-R1
2025-02-11 17:01:49
Nature封面文章: DeepSeek-R1通过强化学习激励的LLM推理
2025-09-18 08:48:39
DeepSeek,引爆AI手机?
2025-02-07 12:53:26
全国首个,深圳海关智能查验机器人引入“满血版”DeepSeek-R1
2025-04-07 09:46:17
OPPO ColorOS 正式接入满血 DeepSeek-R1:支持语音唤醒交互,40+机型可体验
2025-02-26 12:31:58
企业微信接入DeepSeek
2025-02-21 13:52:13
小布助手接入 DeepSeek-R1 满血版,OPPO 公布 40 多款适配机型
2025-03-08 10:45:20
DeepSeek官方推荐:R1要这样设置
2025-02-15 13:02:24
国产AI搜索接入DeepSeek-R1!我们深度试玩了一下
2025-02-03 10:06:40
飞书接入DeepSeek-R1后,用一次顶一万次,而且再也不「服务器繁忙」了
2025-02-11 10:43:42
Andrej Karpathy 最新视频盛赞 DeepSeek:R1 正在发现人类思考的逻辑并进行复现
2025-02-07 15:00:52
QQ浏览器接入DeepSeek-R1满血版
2025-02-16 14:28:42
737 文章
639529 浏览
24小时热文
更多
-
2026-06-08 23:49:41 -
2026-06-08 21:46:02 -
2026-06-08 19:42:13