标题:o3挑战ARC-AGI,英国工程师:大模型在大规模网格面前表现不佳
正文: o3在超难推理任务ARC-AGI上表现出色,但英国工程师Mikel Bober-Irizar的研究发现,其表现可能与题目规模有关。米哥观察到,网格规模越大,大模型如o3、o1、o1 mini及Claude的表现越差。
米哥的研究引发了对大模型工作原理的广泛讨论。世界首位全职提示词工程师Riley Goodside也认为这是一项重要研究。
米哥发现,在ARC挑战中,随着网格数量增加,大模型表现显著下降。尤其在网格数量达到1024个时,o3的表现开始明显下滑。通过对比不同规模的题目,米哥证实了这一现象。此外,ARC数据集中规模为1024个像素的题目数量最多,这也解释了o3在此类题目的优异表现。
米哥认为,ARC挑战不能完全反映大模型的真实推理能力,很多模型被低估,而o3则被高估。
为何大模型在规模较大时表现不佳?米哥引用纽约大学的研究指出,人类不会出现类似问题,且在规模较小时o3表现优于人类,规模较大时则反之。这表明大模型的思考方式与人类有差异。
大模型处理的是数字矩阵而非图像,需跨行和列推理。随着网格变大,模型需要处理更长的上下文信息,这对大模型构成挑战。米哥建议通过旋转矩阵,使模型分别基于行和列进行推理,可以显著提高成绩。
米哥认为,ARC任务不适合大模型,将其视为四维空间中的推理任务。视觉能力是关键,但模型的视觉处理方式与人类不同。
原文链接
本文链接:https://kx.umi6.com/article/10796.html
转载请注明文章出处
相关推荐
换一换
DeepSeek新大招曝光:下一步智能体
2025-09-05 10:15:28
消息称小米研发智能问答助手产品“Mi Chat”
2025-12-09 17:51:08
李开复任命三位新高管:零一万物的“一把手工程”与大模型中场战事
2025-10-27 13:00:52
字节对大模型方向加码期权激励 核心技术员工最高可获百万元
2025-09-03 15:50:37
港股AGI第一股“云知声”首战告捷:大模型贡献1亿收入,单客价直线提升116.2%,AI保险业务暴涨1386.8%
2025-08-29 20:43:34
全球首份大模型业绩报!MiniMax预判2026三大超级PMF,AI平台公司启程了
2026-03-03 11:54:49
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026
2025-12-22 10:34:39
开源模型TOP5,被中国厂商包圆了
2025-10-15 17:36:49
大模型产生幻觉,全怪人类PUA吗?
2025-09-10 15:36:03
花3000元让AI改口,大模型的尽头是广告?
2026-01-06 19:29:29
把12个AI凑到一起打工,它们竟然搞起“小团体”?
2025-10-16 22:02:39
啊?微博7800美元训的大模型,数学能力超了DeepSeek-R1
2025-11-18 14:20:39
腾讯宣布升级大模型研发架构 前OpenAI研究员姚顺雨任要职
2025-12-17 17:58:49
730 文章
545940 浏览
24小时热文
更多
-
2026-03-10 09:02:22 -
2026-03-10 09:01:12 -
2026-03-10 09:00:02