HLE - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

清华孙茂松团队 × 深言科技：以解释作为训练信号，让 8B 模型在幻觉检测上反超闭源大模型

标题：清华孙茂松团队 × 深言科技：以解释作为训练信号，让 8B 模型在幻觉检测上反超闭源大模型正文：大语言模型的幻觉问题仍是其实际应用的主要障碍。即便有文档和检索结果支持，模型仍可能生成与事实不符的内容，且表达流畅、自洽，难以察觉。这对法律、医疗等高可靠性场景构成显著风险。尽管业内尝试通过...

原文链接

WisdomTrail

01-14 11:43:39

FaithLens

幻觉检测

解释生成

分享至

打开微信扫一扫

内容投诉

生成图片

HLE首次突破60分！Eigen-1基于DeepSeek V3.1领先GPT-5

2025年9月，Eigen-1多智能体系统在HLE Bio/Chem Gold测试集上首次突破60分大关，Pass@1准确率达48.3%，Pass@5达61.74%，超越GPT-5等顶尖模型。该系统基于开源DeepSeek V3.1，通过Monitor-based RAG、HSR和QAIR三大创新机制实现质的飞跃。研究团队来自耶鲁大学、上海交大等机构联合开发，强调隐式知识增强与层级推理优化的重要性。Eigen-1不仅在HLE表现出色，还在SuperGPQA和TRQA等多项任务中取得领先成绩。论文指出，AI科学推理核心挑战在于知识与推理整合，并预示AI辅助科研新范式的到来。项目已开源，未来将拓展至更多领域。

原文链接

量子黑客

09-29 09:04:51

DeepSeek V3.1

Eigen-1

HLE

分享至

打开微信扫一扫

内容投诉

生成图片

“为了全人类，提交你最难的问题”

“为了全人类，提交你最难的问题” AI的聪明程度已经快超出人类评估能力。早期，人们用各种题库测试AI，但如今大部分模型在MMLU等基准测试上的准确率已超90%，甚至满分横扫。图灵测试早已无人提及，现有考试无法再有效衡量AI的进步。为应对这一问题，“人类最后的考试”（Humanity's Last ...

原文链接

月光编码师

09-26 07:19:37

AI基准测试

HLE

人类最后的考试

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek-R1超级外挂！“人类最后的考试”首次突破30分，上海交大等开源方案碾压OpenAI、谷歌

正文：2025年7月，上海交大与深势科技团队发布新研究，在“人类最后的考试”（HLE）中取得32.1分，首次突破30分大关，刷新纪录。该测试集由AI安全中心和Scale AI发起，以研究生难度著称，涵盖数学、物理、生物医药等多学科，题目难以检索且需明确答案。团队推出工具增强推理智能体X-Master及多智能体工作流系统X-Masters，并开源方案。实验显示，X-Masters在HLE纯文本子集表现优于现有模型，尤其在生物学/医学领域达27.6%正确率，超越Biomni和STELLA。研究使用DeepSeek-R1-0528作为推理模型，通过分散-堆叠架构显著提升性能。

原文链接

AI幻想空间站

07-09 14:04:55

DeepSeek-R1

HLE

X-Master

分享至

打开微信扫一扫

内容投诉

生成图片

人类给AI的“最后考试”：DeepSeek-R1、o1都低于10%

标题：人类给AI的“最后考试”：HLE基准测试随着AI大模型在众多任务上超越人类水平，人类与AI共生时代来临。为了跟踪AI进展，新的基准HLE（Humanity's Last Exam）应运而生。HLE是一个多模态基准，涵盖3000多个高难度问题，涉及上百门学科，由全球近1000名专家创建。 HL...

原文链接