1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

“为了全人类,提交你最难的问题”

AI的聪明程度已经快超出人类评估能力。早期,人们用各种题库测试AI,但如今大部分模型在MMLU等基准测试上的准确率已超90%,甚至满分横扫。图灵测试早已无人提及,现有考试无法再有效衡量AI的进步。

为应对这一问题,“人类最后的考试”(Humanity's Last Exam,HLE)应运而生。由Center for AI Safety和Scale AI联合创建,HLE于2025年3月推出了一套包含2500道前沿学术难题的题库,涵盖数学、自然科学、计算机科学、工程学、人文学科等领域,并引入多模态问题,包括图表、古文字、图像等。其目标是挑战AI的推理深度与跨学科能力。

HLE的难度极高,不仅要求答案明确且无法在网上找到,还设有隐藏题库以防止数据污染。目前,主流AI模型在HLE上的得分普遍较低,最高分仅为26.9%。然而,随着AI快速进化,HLE也可能很快被攻克——预计到2025年底,某些模型的正确率将超过50%。

尽管如此,HLE仍引发争议。有研究指出,化学生物领域约30%的答案可能错误,部分问题甚至连人类专家也未达成共识。此外,HLE过于聚焦学术性闭合问题,难以评估AI的创造力或开放性思维。

发起人丹·亨德里克斯认为,HLE或许是最后一次学术考试,但绝非AI评估的终点。未来,我们需要更复杂的工具来理解这些超越人类智慧的存在。

原文链接
本文链接:https://kx.umi6.com/article/25896.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
人类给AI的“最后考试”:DeepSeek-R1、o1都低于10%
2025-02-11 10:47:05
对话中国信通院魏凯:AI下半场,大模型要少说话,多做事
2025-07-01 08:51:07
OpenAI 启动先锋计划,旨在重塑 AI 模型评分体系
2025-04-10 08:35:44
红杉中国推出全新AI基准测试xbench,要在AI下半场定义“好问题”
2025-05-26 17:32:29
“为了全人类,提交你最难的问题”
2025-09-26 07:19:37
红杉中国,刚刚发了一篇Paper
2025-05-26 12:35:56
MLCommons 发布 PC AI 基准测试 MLPerf Client 首个公开版本 0.5
2024-12-12 15:59:12
DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌
2025-07-09 14:04:55
Meta 推出 Vibes 短视频应用,平台所有内容均为 AI 生成
2025-09-27 15:43:18
“零人”搞医学研究:清华AI智能体从灵感到论文全程自主
2025-09-26 14:30:51
DeepMind率先提出CoF:视频模型有自己的思维链
2025-09-28 11:52:38
全球首家人工智能 6S 店在深圳开放,设立鸿蒙专区
2025-09-28 16:56:44
工信部等七部门:到 2027 年建成一批“AI + 交通运输”标志性创新工程
2025-09-26 17:31:34
24小时热文
更多
扫一扫体验小程序