标题:o3挑战ARC-AGI,英国工程师:大模型在大规模网格面前表现不佳
正文: o3在超难推理任务ARC-AGI上表现出色,但英国工程师Mikel Bober-Irizar的研究发现,其表现可能与题目规模有关。米哥观察到,网格规模越大,大模型如o3、o1、o1 mini及Claude的表现越差。
米哥的研究引发了对大模型工作原理的广泛讨论。世界首位全职提示词工程师Riley Goodside也认为这是一项重要研究。
米哥发现,在ARC挑战中,随着网格数量增加,大模型表现显著下降。尤其在网格数量达到1024个时,o3的表现开始明显下滑。通过对比不同规模的题目,米哥证实了这一现象。此外,ARC数据集中规模为1024个像素的题目数量最多,这也解释了o3在此类题目的优异表现。
米哥认为,ARC挑战不能完全反映大模型的真实推理能力,很多模型被低估,而o3则被高估。
为何大模型在规模较大时表现不佳?米哥引用纽约大学的研究指出,人类不会出现类似问题,且在规模较小时o3表现优于人类,规模较大时则反之。这表明大模型的思考方式与人类有差异。
大模型处理的是数字矩阵而非图像,需跨行和列推理。随着网格变大,模型需要处理更长的上下文信息,这对大模型构成挑战。米哥建议通过旋转矩阵,使模型分别基于行和列进行推理,可以显著提高成绩。
米哥认为,ARC任务不适合大模型,将其视为四维空间中的推理任务。视觉能力是关键,但模型的视觉处理方式与人类不同。
原文链接
本文链接:https://kx.umi6.com/article/10796.html
转载请注明文章出处
相关推荐
换一换
不整虚的!中美AI同步加速:47天30次更新,中国AI的最强主场究竟在哪?
2026-02-22 18:50:22
腾讯调整大模型组织架构:姚顺雨加盟,向总裁刘炽平汇报
2025-12-18 15:51:59
中金:2026年大模型在强化学习、模型记忆、上下文工程等方面将取得更多突破
2026-02-05 08:39:59
长三角一体化大模型发布 AI将为区域发展提供决策支撑
2026-01-12 09:40:07
腾讯AI下了一场「及时雨」
2025-12-19 10:42:16
“雷军千万年薪要挖”的 DeepSeek 罗福莉官宣加入小米 Xiaomi MiMo 大模型团队
2025-11-12 14:05:32
无预训练模型拿下ARC-AGI榜三!Mamba作者用压缩原理挑战Scaling Law
2025-12-16 15:45:19
中国AI云,开始「抢座次」了
2025-11-20 11:17:00
智谱、MiniMax争夺「大模型第一股」
2025-12-24 10:30:23
亚马逊云科技发布多款大模型
2025-12-03 14:25:54
李飞飞的答案:大模型之后,Agent向何处去?
2025-09-05 09:13:59
几乎都在挂羊头卖狗肉!AI Agent泡沫实在太大了
2025-10-20 11:04:42
Manus救不了Meta
2026-01-08 20:35:12
768 文章
634065 浏览
24小时热文
更多
-
2026-04-24 20:31:56 -
2026-04-24 20:29:51 -
2026-04-24 19:29:38