1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:人类给AI的“最后考试”:HLE基准测试

随着AI大模型在众多任务上超越人类水平,人类与AI共生时代来临。为了跟踪AI进展,新的基准HLE(Humanity's Last Exam)应运而生。HLE是一个多模态基准,涵盖3000多个高难度问题,涉及上百门学科,由全球近1000名专家创建。

HLE包含两种问题格式:精确匹配和多项选择题。问题需明确、可解且无法通过网络检索获得。团队设定了严格的提交标准,并设立50万美元奖金池吸引高质量投稿。

SOTA模型在HLE上表现不佳,GPT-4o和DeepSeek-R1等模型准确率低于10%,即使使用Deep Research,o3-mini-high也只能达到13%。这反映了模型在处理复杂问题时的局限性,同时也提示未来模型需提升准确性和计算效率。

尽管目前模型表现欠佳,团队预计到2025年底,准确率可能超过50%。HLE测试的是封闭式学术问题,而非开放性研究或创造能力,未来仍需更多基准来全面评估AI。

原文链接
本文链接:https://kx.umi6.com/article/13091.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌
2025-07-09 14:04:55
全世界最懂大模型的两个产品经理,一起聊怎么做AI产品
2024-11-12 08:59:30
MLCommons 发布 PC AI 基准测试 MLPerf Client 首个公开版本 0.5
2024-12-12 15:59:12
24小时热文
更多
扫一扫体验小程序