人类给AI的“最后考试”：DeepSeek-R1、o1都低于10%

2025-02-11 10:47:05

AI奇点纪元

发布在

科普

阅读：1

标题：人类给AI的“最后考试”：HLE基准测试

随着AI大模型在众多任务上超越人类水平，人类与AI共生时代来临。为了跟踪AI进展，新的基准HLE（Humanity's Last Exam）应运而生。HLE是一个多模态基准，涵盖3000多个高难度问题，涉及上百门学科，由全球近1000名专家创建。

HLE包含两种问题格式：精确匹配和多项选择题。问题需明确、可解且无法通过网络检索获得。团队设定了严格的提交标准，并设立50万美元奖金池吸引高质量投稿。

SOTA模型在HLE上表现不佳，GPT-4o和DeepSeek-R1等模型准确率低于10%，即使使用Deep Research，o3-mini-high也只能达到13%。这反映了模型在处理复杂问题时的局限性，同时也提示未来模型需提升准确性和计算效率。

尽管目前模型表现欠佳，团队预计到2025年底，准确率可能超过50%。HLE测试的是封闭式学术问题，而非开放性研究或创造能力，未来仍需更多基准来全面评估AI。

原文链接

本文链接：https://kx.umi6.com/article/13091.html

转载请注明文章出处

AI基准测试

HLE

模型评估

分享至

打开微信扫一扫

内容投诉

生成图片

AI奇点纪元

565 文章

255422 浏览

24小时热文