DeepSeek-R1超级外挂！“人类最后的考试”首次突破30分，上海交大等开源方案碾压OpenAI、谷歌

2025-07-09 14:04:55

AI幻想空间站

发布在

快讯

阅读：2357

正文：2025年7月，上海交大与深势科技团队发布新研究，在“人类最后的考试”（HLE）中取得32.1分，首次突破30分大关，刷新纪录。该测试集由AI安全中心和Scale AI发起，以研究生难度著称，涵盖数学、物理、生物医药等多学科，题目难以检索且需明确答案。团队推出工具增强推理智能体X-Master及多智能体工作流系统X-Masters，并开源方案。实验显示，X-Masters在HLE纯文本子集表现优于现有模型，尤其在生物学/医学领域达27.6%正确率，超越Biomni和STELLA。研究使用DeepSeek-R1-0528作为推理模型，通过分散-堆叠架构显著提升性能。

原文链接

本文链接：https://kx.umi6.com/article/21428.html

转载请注明文章出处

DeepSeek-R1