2025年9月,Eigen-1多智能体系统在HLE Bio/Chem Gold测试集上首次突破60分大关,Pass@1准确率达48.3%,Pass@5达61.74%,超越GPT-5等顶尖模型。该系统基于开源DeepSeek V3.1,通过Monitor-based RAG、HSR和QAIR三大创新机制实现质的飞跃。研究团队来自耶鲁大学、上海交大等机构联合开发,强调隐式知识增强与层级推理优化的重要性。Eigen-1不仅在HLE表现出色,还在SuperGPQA和TRQA等多项任务中取得领先成绩。论文指出,AI科学推理核心挑战在于知识与推理整合,并预示AI辅助科研新范式的到来。项目已开源,未来将拓展至更多领域。
原文链接
本文链接:https://kx.umi6.com/article/26040.html
转载请注明文章出处
相关推荐
.png)
换一换
DeepSeek V3.1 Base突袭上线!击败Claude 4编程爆表,全网在蹲R2和V4
2025-08-21 10:27:32
实测DeepSeek V3.1,不止拓展上下文长度
2025-08-20 17:21:15
DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌
2025-07-09 14:04:55
人类给AI的“最后考试”:DeepSeek-R1、o1都低于10%
2025-02-11 10:47:05
DeepSeek V3.1 输出结果跳出“极”字 bug,官方回应了
2025-08-27 13:01:51
DeepSeek“极你太美”bug,官方回应了
2025-08-27 12:01:13
HLE首次突破60分!Eigen-1基于DeepSeek V3.1领先GPT-5
2025-09-29 09:04:51
DeepSeek V3.1更新「最终版」!下一次是V4/R2了???
2025-09-23 12:13:50
DeepSeek V3.1发布后,投资者该思考这四个问题
2025-08-21 09:26:48
“为了全人类,提交你最难的问题”
2025-09-26 07:19:37
腾讯元宝接入 DeepSeek V3.1 最新版,电脑 / 网页版可体验
2025-08-22 16:51:05
黄仁勋最新访谈:关于5万亿美元资本开支、千亿绑定OpenAI……
2025-09-27 16:43:25
OpenAI CEO 萨姆・奥尔特曼:2030 年前通用人工智能将来,未来 AI 接管人类 40% 工作
2025-09-26 23:34:02
489 文章
237435 浏览
24小时热文
更多

-
2025-09-29 12:09:12
-
2025-09-29 12:09:01
-
2025-09-29 12:08:03