1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:人类给AI的“最后考试”:HLE基准测试

随着AI大模型在众多任务上超越人类水平,人类与AI共生时代来临。为了跟踪AI进展,新的基准HLE(Humanity's Last Exam)应运而生。HLE是一个多模态基准,涵盖3000多个高难度问题,涉及上百门学科,由全球近1000名专家创建。

HLE包含两种问题格式:精确匹配和多项选择题。问题需明确、可解且无法通过网络检索获得。团队设定了严格的提交标准,并设立50万美元奖金池吸引高质量投稿。

SOTA模型在HLE上表现不佳,GPT-4o和DeepSeek-R1等模型准确率低于10%,即使使用Deep Research,o3-mini-high也只能达到13%。这反映了模型在处理复杂问题时的局限性,同时也提示未来模型需提升准确性和计算效率。

尽管目前模型表现欠佳,团队预计到2025年底,准确率可能超过50%。HLE测试的是封闭式学术问题,而非开放性研究或创造能力,未来仍需更多基准来全面评估AI。

原文链接
本文链接:https://kx.umi6.com/article/13091.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI罕见发论文:我们找到了AI幻觉的罪魁祸首
2025-09-06 11:35:08
DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌
2025-07-09 14:04:55
MLCommons 发布 PC AI 基准测试 MLPerf Client 首个公开版本 0.5
2024-12-12 15:59:12
对话中国信通院魏凯:AI下半场,大模型要少说话,多做事
2025-07-01 08:51:07
红杉中国,刚刚发了一篇Paper
2025-05-26 12:35:56
全世界最懂大模型的两个产品经理,一起聊怎么做AI产品
2024-11-12 08:59:30
红杉中国推出全新AI基准测试xbench,要在AI下半场定义“好问题”
2025-05-26 17:32:29
OpenAI 启动先锋计划,旨在重塑 AI 模型评分体系
2025-04-10 08:35:44
人类给AI的“最后考试”:DeepSeek-R1、o1都低于10%
2025-02-11 10:47:05
打造“专属对话空间”:OpenAI 向免费用户开放 ChatGPT Projects
2025-09-04 17:04:18
调整训练数据出场顺序大模型就能变聪明!无需扩大模型/数据规模
2025-09-06 12:36:04
国家标准委:将围绕人工智能、物联网等领域制修订国家标准4000余项
2025-09-04 17:05:10
字节Seed最新版原生智能体来了!一个模型搞定手机/电脑/浏览器自主操作
2025-09-05 13:18:29
24小时热文
更多
扫一扫体验小程序