1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:o3挑战ARC-AGI,英国工程师:大模型在大规模网格面前表现不佳

正文: o3在超难推理任务ARC-AGI上表现出色,但英国工程师Mikel Bober-Irizar的研究发现,其表现可能与题目规模有关。米哥观察到,网格规模越大,大模型如o3、o1、o1 mini及Claude的表现越差。

米哥的研究引发了对大模型工作原理的广泛讨论。世界首位全职提示词工程师Riley Goodside也认为这是一项重要研究。

米哥发现,在ARC挑战中,随着网格数量增加,大模型表现显著下降。尤其在网格数量达到1024个时,o3的表现开始明显下滑。通过对比不同规模的题目,米哥证实了这一现象。此外,ARC数据集中规模为1024个像素的题目数量最多,这也解释了o3在此类题目的优异表现。

米哥认为,ARC挑战不能完全反映大模型的真实推理能力,很多模型被低估,而o3则被高估。

为何大模型在规模较大时表现不佳?米哥引用纽约大学的研究指出,人类不会出现类似问题,且在规模较小时o3表现优于人类,规模较大时则反之。这表明大模型的思考方式与人类有差异。

大模型处理的是数字矩阵而非图像,需跨行和列推理。随着网格变大,模型需要处理更长的上下文信息,这对大模型构成挑战。米哥建议通过旋转矩阵,使模型分别基于行和列进行推理,可以显著提高成绩。

米哥认为,ARC任务不适合大模型,将其视为四维空间中的推理任务。视觉能力是关键,但模型的视觉处理方式与人类不同。

原文链接
本文链接:https://kx.umi6.com/article/10796.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
大模型即OS,AI云即计算机:阿里的全栈赌注
2025-09-25 10:00:29
Q2财报启示录:AI为大厂们带来了新「钱景」
2025-09-03 14:46:42
汪军对话 Rich Sutton:大模型在一定程度上分散了我们对智能理解的注意力
2025-09-28 11:53:51
Gartner首次发布大模型报告:火山引擎排名中国厂商第一
2025-11-20 12:17:36
大模型产生幻觉 全怪人类PUA吗
2025-09-12 01:04:40
卓世科技,股改完成!
2026-01-05 15:08:15
王兴一鸣惊人!美团首个开源大模型追平DeepSeek-V3.1
2025-09-01 13:16:16
Kimi即将推出新一代万亿大模型:开源王者刷新 去年已超GPT5
2026-01-20 22:33:50
大模型“记性差一点”反而更聪明!金鱼损失随机剔除token,让AI不再死记硬背
2025-09-03 17:49:26
花3000元让AI改口,大模型的尽头是广告?
2026-01-06 19:29:29
上海:推动医疗器械相关垂类大模型研发应用
2025-09-15 16:02:14
Karpathy 最新发文:别把 AI 当人看,它没欲望也不怕死
2025-11-22 19:29:36
卖酒的茅台要学AI了!和奔驰麦当劳一起拜师百度
2025-08-17 12:35:45
24小时热文
更多
扫一扫体验小程序