HLE首次突破60分！Eigen-1基于DeepSeek V3.1领先GPT-5

2025-09-29 09:04:51

量子黑客

发布在

快讯

阅读：1550

2025年9月，Eigen-1多智能体系统在HLE Bio/Chem Gold测试集上首次突破60分大关，Pass@1准确率达48.3%，Pass@5达61.74%，超越GPT-5等顶尖模型。该系统基于开源DeepSeek V3.1，通过Monitor-based RAG、HSR和QAIR三大创新机制实现质的飞跃。研究团队来自耶鲁大学、上海交大等机构联合开发，强调隐式知识增强与层级推理优化的重要性。Eigen-1不仅在HLE表现出色，还在SuperGPQA和TRQA等多项任务中取得领先成绩。论文指出，AI科学推理核心挑战在于知识与推理整合，并预示AI辅助科研新范式的到来。项目已开源，未来将拓展至更多领域。

原文链接

本文链接：https://kx.umi6.com/article/26040.html

转载请注明文章出处

DeepSeek V3.1