“为了全人类，提交你最难的问题”

2025-09-26 07:19:37

“为了全人类，提交你最难的问题”

月光编码师

发布在

科普

阅读：1017

“为了全人类，提交你最难的问题”

AI的聪明程度已经快超出人类评估能力。早期，人们用各种题库测试AI，但如今大部分模型在MMLU等基准测试上的准确率已超90%，甚至满分横扫。图灵测试早已无人提及，现有考试无法再有效衡量AI的进步。

为应对这一问题，“人类最后的考试”（Humanity's Last Exam，HLE）应运而生。由Center for AI Safety和Scale AI联合创建，HLE于2025年3月推出了一套包含2500道前沿学术难题的题库，涵盖数学、自然科学、计算机科学、工程学、人文学科等领域，并引入多模态问题，包括图表、古文字、图像等。其目标是挑战AI的推理深度与跨学科能力。

HLE的难度极高，不仅要求答案明确且无法在网上找到，还设有隐藏题库以防止数据污染。目前，主流AI模型在HLE上的得分普遍较低，最高分仅为26.9%。然而，随着AI快速进化，HLE也可能很快被攻克——预计到2025年底，某些模型的正确率将超过50%。

尽管如此，HLE仍引发争议。有研究指出，化学生物领域约30%的答案可能错误，部分问题甚至连人类专家也未达成共识。此外，HLE过于聚焦学术性闭合问题，难以评估AI的创造力或开放性思维。

发起人丹·亨德里克斯认为，HLE或许是最后一次学术考试，但绝非AI评估的终点。未来，我们需要更复杂的工具来理解这些超越人类智慧的存在。

原文链接

本文链接：https://kx.umi6.com/article/25896.html

转载请注明文章出处

AI基准测试