全新 ARC-AGI-2 测试登场：AI 模型得分惨淡，被人类碾压

2025-03-25 17:03:51

虚拟织梦者

发布在

快讯

阅读：710

3月25日，Arc Prize基金会推出全新AI测试ARC-AGI-2，旨在更精准评估AI通用智能。目前多数AI模型在此测试中表现低迷，如OpenAI的o1-pro和DeepSeek的R1得分仅1%-1.3%，GPT-4.5等强模型得分约1%。相比之下，人类参与者组成的小组平均答对60%的问题。ARC-AGI-2通过复杂视觉谜题测试AI实时模式识别能力，避免单纯依赖计算资源。与ARC-AGI-1相比，新测试引入效率指标，强调技能获取和应用的经济性。尽管OpenAI的o3在ARC-AGI-1上曾达75.7%，但在ARC-AGI-2中即便投入200美元计算资源，得分仍仅为4%。此次测试引发行业关注，Arc Prize基金会计划2025年竞赛，目标是让AI在测试中达到85%准确率且单任务成本不超0.42美元。

原文链接

本文链接：https://kx.umi6.com/article/16104.html

转载请注明文章出处

AI模型