ARC-AGI - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

无预训练模型拿下ARC-AGI榜三！Mamba作者用压缩原理挑战Scaling Law

2025年12月，Mamba作者Albert Gu团队发布新研究CompressARC，挑战传统Scaling Law。该研究基于最小描述长度（MDL）理论，通过仅76K参数且无预训练的模型，在ARC-AGI-1基准测试中解决20%的问题，获得ARC Prize 2025第三名。CompressARC不依赖训练集，仅用单个样本运行，成功将谜题压缩为最短程序表达，揭示其本质规则。研究采用变分自编码器原理和类Transformer架构，结合高度定制的操作实现高效压缩。实验表明，该方法在推理阶段用2000步训练正确解决20%评估集谜题，证明智能可源于压缩而非大规模数据。论文一作Isaac Liao为CMU博士生，研究方向包括MDL、元学习等。

原文链接

月光编码师

12-16 15:45:19

ARC-AGI

CompressARC

最小描述长度

分享至

打开微信扫一扫

内容投诉

生成图片

AI版三个臭皮匠！ChatGPT/Gemini/DeepSeek合体拿下AGI测试最高分

AI版三个臭皮匠！ChatGPT/Gemini/DeepSeek合体拿下AGI测试最高分 ChatGPT的对话流畅性、Gemini的多模态能力、DeepSeek的长上下文分析……这些模型能否强强联合，共同解决问题？由Transformer作者之一Llion Jones创立的Sakana AI提出...

原文链接

AI创想团

07-08 17:49:27

AB-MCTS

ARC-AGI

ChatGPT

分享至

打开微信扫一扫

内容投诉

生成图片

中杯o3成OpenAI“性价比之王”？ARC-AGI测试结果出炉：得分翻倍、成本仅1/20

近日，OpenAI的中杯o3模型在ARC-AGI推理测试中表现亮眼，得分达57%，成本仅为1.5美元/任务，相比第二名翻倍且成本仅为其1/20，成为当前OpenAI模型中的‘性价比之王’。该测试由ARC Prize官方组织，评估模型的推理能力。结果显示，o3在ARC-AGI-1测试中表现优异，但在升级版ARC-AGI-2中准确率未超3%。值得注意的是，此次的o3虽沿用旧名，但经过微调更适合聊天与产品应用，而非专为测试设计。相比去年12月发布的o3-preview，新版本在成本控制上有显著提升，但准确率有所下降。此外，高级推理设置下的o3(high)因成本高昂且效率较低，未能全面完成测试。ARC官方指出，早期响应的准确率更高，高级推理未必高效，且各版本间每秒token数差异不大。DeepSeek-R1在相同测试中得分仅为15.8%，逊色于o3。

原文链接

电子诗篇

04-23 11:51:39

ARC-AGI

OpenAI

性价比

分享至

打开微信扫一扫

内容投诉

生成图片

全新 ARC-AGI-2 测试登场：AI 模型得分惨淡，被人类碾压

3月25日，Arc Prize基金会推出全新AI测试ARC-AGI-2，旨在更精准评估AI通用智能。目前多数AI模型在此测试中表现低迷，如OpenAI的o1-pro和DeepSeek的R1得分仅1%-1.3%，GPT-4.5等强模型得分约1%。相比之下，人类参与者组成的小组平均答对60%的问题。ARC-AGI-2通过复杂视觉谜题测试AI实时模式识别能力，避免单纯依赖计算资源。与ARC-AGI-1相比，新测试引入效率指标，强调技能获取和应用的经济性。尽管OpenAI的o3在ARC-AGI-1上曾达75.7%，但在ARC-AGI-2中即便投入200美元计算资源，得分仍仅为4%。此次测试引发行业关注，Arc Prize基金会计划2025年竞赛，目标是让AI在测试中达到85%准确率且单任务成本不超0.42美元。

原文链接

虚拟织梦者

03-25 17:03:51

AI模型

ARC-AGI-2

通用智能

分享至

打开微信扫一扫

内容投诉

生成图片

o3挑战ARC-AGI，遇见大网格就懵圈？英国工程师：ARC-AGI不适合大模型

标题：o3挑战ARC-AGI，英国工程师：大模型在大规模网格面前表现不佳正文： o3在超难推理任务ARC-AGI上表现出色，但英国工程师Mikel Bober-Irizar的研究发现，其表现可能与题目规模有关。米哥观察到，网格规模越大，大模型如o3、o1、o1 mini及Claude的表现越差。 ...

原文链接

新智燎原

12-26 16:36:28

ARC-AGI

大模型

网格规模

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI o3是AGI吗？

标题：OpenAI o3是AGI吗？ OpenAI发布了o3系统，在编程、数学、科学等领域表现出色，尤其在ARC-AGI测试中取得重大突破。这是否意味着2025年能看到AGI的曙光？我们编译了ARC-AGI测试标准创始人撰写的o3测评报告。 OpenAI使用ARC-AGI-1数据集训练o3，半私密评...

原文链接

LunarCoder

12-21 14:58:33

AGI

ARC-AGI

OpenAI o3

分享至

打开微信扫一扫

内容投诉

生成图片

GPT-4o攻破ARC-AGI无法被挑战的神话，71%准确率成新SOTA

新闻摘要：在2024年，GPT-4o突破了通用人工智能基准ARC-AGI的不可能被击败的神话，以71%的准确率在训练集特定子集上成为新SOTA。此前，ARC-AGI被视为难以逾越的挑战，但GPT-4o在公共测试集上的50%准确率和训练集中的表现显示其强大。开发者Ryan Greenblatt利用GPT-4o生成并优化Python程序，取得显著进展，尽管其解决方案因使用闭源模型受限于官方排行榜。未来，专家预测，更大的模型和更多的计算资源有望进一步提升性能，逼近人类85%的基线。这一突破引发了关于LLMs学习能力的讨论，尽管它们在ARC-AGI上尚未展现出深度的即时学习。

原文链接

数码游侠

06-20 14:13:43

ARC-AGI

GPT-4o

SOTA

分享至

打开微信扫一扫

内容投诉

生成图片

悬赏800万的超难测试集，被GPT-4o实现新SOTA，准确率已达50%

GPT-4o在一周内实现了对悬赏800万美元的ARC-AGI超难测试集的新SOTA，准确率突破50%，之前的最佳成绩为34%。挑战者Ryan Greenblatt利用GPT编写程序，通过细致的少样本提示和策略优化，提升了模型性能。尽管奖金需开源方法获取，Ryan的方法有望推动AI研究。ARC Prize由Mike Knoop和François Chollet发起，目标测试AI的“智力”而非技能，奖金达110万美元，截止日期为11月10日，结果将于12月3日公布。

原文链接