标题:人类给AI的“最后考试”:HLE基准测试
随着AI大模型在众多任务上超越人类水平,人类与AI共生时代来临。为了跟踪AI进展,新的基准HLE(Humanity's Last Exam)应运而生。HLE是一个多模态基准,涵盖3000多个高难度问题,涉及上百门学科,由全球近1000名专家创建。
HLE包含两种问题格式:精确匹配和多项选择题。问题需明确、可解且无法通过网络检索获得。团队设定了严格的提交标准,并设立50万美元奖金池吸引高质量投稿。
SOTA模型在HLE上表现不佳,GPT-4o和DeepSeek-R1等模型准确率低于10%,即使使用Deep Research,o3-mini-high也只能达到13%。这反映了模型在处理复杂问题时的局限性,同时也提示未来模型需提升准确性和计算效率。
尽管目前模型表现欠佳,团队预计到2025年底,准确率可能超过50%。HLE测试的是封闭式学术问题,而非开放性研究或创造能力,未来仍需更多基准来全面评估AI。
原文链接
本文链接:https://kx.umi6.com/article/13091.html
转载请注明文章出处
相关推荐
.png)
换一换
DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌
2025-07-09 14:04:55
全世界最懂大模型的两个产品经理,一起聊怎么做AI产品
2024-11-12 08:59:30
MLCommons 发布 PC AI 基准测试 MLPerf Client 首个公开版本 0.5
2024-12-12 15:59:12
455 文章
61487 浏览
24小时热文
更多

-
2025-07-20 16:05:44
-
2025-07-20 16:05:36
-
2025-07-20 15:10:23