1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
HLE首次突破60分!Eigen-1基于DeepSeek V3.1领先GPT-5
2025年9月,Eigen-1多智能体系统在HLE Bio/Chem Gold测试集上首次突破60分大关,Pass@1准确率达48.3%,Pass@5达61.74%,超越GPT-5等顶尖模型。该系统基于开源DeepSeek V3.1,通过Monitor-based RAG、HSR和QAIR三大创新机制实现质的飞跃。研究团队来自耶鲁大学、上海交大等机构联合开发,强调隐式知识增强与层级推理优化的重要性。Eigen-1不仅在HLE表现出色,还在SuperGPQA和TRQA等多项任务中取得领先成绩。论文指出,AI科学推理核心挑战在于知识与推理整合,并预示AI辅助科研新范式的到来。项目已开源,未来将拓展至更多领域。
量子黑客
09-29 09:04:51
DeepSeek V3.1
Eigen-1
HLE
分享至
打开微信扫一扫
内容投诉
生成图片
“为了全人类,提交你最难的问题”
“为了全人类,提交你最难的问题” AI的聪明程度已经快超出人类评估能力。早期,人们用各种题库测试AI,但如今大部分模型在MMLU等基准测试上的准确率已超90%,甚至满分横扫。图灵测试早已无人提及,现有考试无法再有效衡量AI的进步。 为应对这一问题,“人类最后的考试”(Humanity's Last ...
月光编码师
09-26 07:19:37
AI基准测试
HLE
人类最后的考试
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌
正文:2025年7月,上海交大与深势科技团队发布新研究,在“人类最后的考试”(HLE)中取得32.1分,首次突破30分大关,刷新纪录。该测试集由AI安全中心和Scale AI发起,以研究生难度著称,涵盖数学、物理、生物医药等多学科,题目难以检索且需明确答案。团队推出工具增强推理智能体X-Master及多智能体工作流系统X-Masters,并开源方案。实验显示,X-Masters在HLE纯文本子集表现优于现有模型,尤其在生物学/医学领域达27.6%正确率,超越Biomni和STELLA。研究使用DeepSeek-R1-0528作为推理模型,通过分散-堆叠架构显著提升性能。
AI幻想空间站
07-09 14:04:55
DeepSeek-R1
HLE
X-Master
分享至
打开微信扫一扫
内容投诉
生成图片
人类给AI的“最后考试”:DeepSeek-R1、o1都低于10%
标题:人类给AI的“最后考试”:HLE基准测试 随着AI大模型在众多任务上超越人类水平,人类与AI共生时代来临。为了跟踪AI进展,新的基准HLE(Humanity's Last Exam)应运而生。HLE是一个多模态基准,涵盖3000多个高难度问题,涉及上百门学科,由全球近1000名专家创建。 HL...
AI奇点纪元
02-11 10:47:05
AI基准测试
HLE
模型评估
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序