3月25日,Arc Prize基金会推出全新AI测试ARC-AGI-2,旨在更精准评估AI通用智能。目前多数AI模型在此测试中表现低迷,如OpenAI的o1-pro和DeepSeek的R1得分仅1%-1.3%,GPT-4.5等强模型得分约1%。相比之下,人类参与者组成的小组平均答对60%的问题。ARC-AGI-2通过复杂视觉谜题测试AI实时模式识别能力,避免单纯依赖计算资源。与ARC-AGI-1相比,新测试引入效率指标,强调技能获取和应用的经济性。尽管OpenAI的o3在ARC-AGI-1上曾达75.7%,但在ARC-AGI-2中即便投入200美元计算资源,得分仍仅为4%。此次测试引发行业关注,Arc Prize基金会计划2025年竞赛,目标是让AI在测试中达到85%准确率且单任务成本不超0.42美元。
原文链接
本文链接:https://kx.umi6.com/article/16104.html
转载请注明文章出处
相关推荐
换一换
AI 3D大模型Tripo 3.0发布:参数量达200亿 草图秒变3D
2025-08-22 17:51:52
浙江大学发布高精准基因组设计AI模型
2025-07-09 11:05:23
AGI又进一步了?谷歌AI模型重磅更新 助机器人感知环境完成复杂任务
2025-09-26 11:34:30
宇树科技创始人王兴兴:目前AI模型难以真正驱动机器人做事
2025-09-11 12:54:53
新研究发现 AI 的最大破绽:不是不够聪明,而是不会“骂人”
2025-11-08 10:35:27
大厂AI各走「开源」路
2025-10-17 09:09:57
马斯克最贵AI 首批实测炸了,Grok4一边封神一边翻车,网友:2万块就这?
2025-07-11 17:46:43
百度旗下基金等入股深朴智能 后者为AI模型技术研发商
2025-10-28 10:53:09
港科大团队开发出新 AI 模型:2 至 4 张 X 光片构建 3D 影像,相比 CT 扫描辐射量降低 99%
2025-07-17 23:30:57
谷歌新App来了!手机没网也能玩AI 还能画图、写代码
2025-06-02 08:30:14
马斯克发布Grok 4,年费飚到2万+
2025-07-10 19:26:08
WAIC 2025 主论坛演讲 | MiniMax 创始人闫俊杰:每个人的 AI
2025-07-26 17:45:10
谷歌发布 Gemini 2.5 Computer Use 模型:专攻浏览器交互,支持 13 种操作
2025-10-09 09:08:03
569 文章
326347 浏览
24小时热文
更多
-
2025-12-08 23:53:52 -
2025-12-08 22:52:38 -
2025-12-08 22:51:57