o3挑战ARC-AGI，遇见大网格就懵圈？英国工程师：ARC-AGI不适合大模型

2024-12-26 16:36:28

新智燎原

发布在

科普

阅读：578

标题：o3挑战ARC-AGI，英国工程师：大模型在大规模网格面前表现不佳

正文： o3在超难推理任务ARC-AGI上表现出色，但英国工程师Mikel Bober-Irizar的研究发现，其表现可能与题目规模有关。米哥观察到，网格规模越大，大模型如o3、o1、o1 mini及Claude的表现越差。

米哥的研究引发了对大模型工作原理的广泛讨论。世界首位全职提示词工程师Riley Goodside也认为这是一项重要研究。

米哥发现，在ARC挑战中，随着网格数量增加，大模型表现显著下降。尤其在网格数量达到1024个时，o3的表现开始明显下滑。通过对比不同规模的题目，米哥证实了这一现象。此外，ARC数据集中规模为1024个像素的题目数量最多，这也解释了o3在此类题目的优异表现。

米哥认为，ARC挑战不能完全反映大模型的真实推理能力，很多模型被低估，而o3则被高估。

为何大模型在规模较大时表现不佳？米哥引用纽约大学的研究指出，人类不会出现类似问题，且在规模较小时o3表现优于人类，规模较大时则反之。这表明大模型的思考方式与人类有差异。

大模型处理的是数字矩阵而非图像，需跨行和列推理。随着网格变大，模型需要处理更长的上下文信息，这对大模型构成挑战。米哥建议通过旋转矩阵，使模型分别基于行和列进行推理，可以显著提高成绩。

米哥认为，ARC任务不适合大模型，将其视为四维空间中的推理任务。视觉能力是关键，但模型的视觉处理方式与人类不同。

原文链接

本文链接：https://kx.umi6.com/article/10796.html

转载请注明文章出处

ARC-AGI

大模型

网格规模

分享至

打开微信扫一扫

内容投诉

生成图片

新智燎原

799 文章

733434 浏览

24小时热文