“为了全人类,提交你最难的问题”
AI的聪明程度已经快超出人类评估能力。早期,人们用各种题库测试AI,但如今大部分模型在MMLU等基准测试上的准确率已超90%,甚至满分横扫。图灵测试早已无人提及,现有考试无法再有效衡量AI的进步。
为应对这一问题,“人类最后的考试”(Humanity's Last Exam,HLE)应运而生。由Center for AI Safety和Scale AI联合创建,HLE于2025年3月推出了一套包含2500道前沿学术难题的题库,涵盖数学、自然科学、计算机科学、工程学、人文学科等领域,并引入多模态问题,包括图表、古文字、图像等。其目标是挑战AI的推理深度与跨学科能力。
HLE的难度极高,不仅要求答案明确且无法在网上找到,还设有隐藏题库以防止数据污染。目前,主流AI模型在HLE上的得分普遍较低,最高分仅为26.9%。然而,随着AI快速进化,HLE也可能很快被攻克——预计到2025年底,某些模型的正确率将超过50%。
尽管如此,HLE仍引发争议。有研究指出,化学生物领域约30%的答案可能错误,部分问题甚至连人类专家也未达成共识。此外,HLE过于聚焦学术性闭合问题,难以评估AI的创造力或开放性思维。
发起人丹·亨德里克斯认为,HLE或许是最后一次学术考试,但绝非AI评估的终点。未来,我们需要更复杂的工具来理解这些超越人类智慧的存在。
原文链接
本文链接:https://kx.umi6.com/article/25896.html
转载请注明文章出处
相关推荐
换一换
HLE首次突破60分!Eigen-1基于DeepSeek V3.1领先GPT-5
2025-09-29 09:04:51
“为了全人类,提交你最难的问题”
2025-09-26 07:19:37
OpenAI 启动先锋计划,旨在重塑 AI 模型评分体系
2025-04-10 08:35:44
红杉中国,刚刚发了一篇Paper
2025-05-26 12:35:56
DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌
2025-07-09 14:04:55
人类给AI的“最后考试”:DeepSeek-R1、o1都低于10%
2025-02-11 10:47:05
红杉中国推出全新AI基准测试xbench,要在AI下半场定义“好问题”
2025-05-26 17:32:29
对话中国信通院魏凯:AI下半场,大模型要少说话,多做事
2025-07-01 08:51:07
牛津大学研究:当前基准测试普遍夸大了 AI 模型的性能
2025-11-06 19:10:49
MLCommons 发布 PC AI 基准测试 MLPerf Client 首个公开版本 0.5
2024-12-12 15:59:12
特斯拉 Optimus 人形机器人演示时摔倒,手忙脚乱“摘头显”露了馅
2025-12-08 15:33:43
山东省“十五五”规划建议:大力推进人工智能创新应用 支持创建一批国家人工智能应用中试基地
2025-12-08 09:22:21
戴尔科技集团 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案
2025-12-06 10:23:57
570 文章
327839 浏览
24小时热文
更多
-
2025-12-08 17:39:25 -
2025-12-08 17:37:43 -
2025-12-08 16:38:29