3月25日,Arc Prize基金会推出全新AI测试ARC-AGI-2,旨在更精准评估AI通用智能。目前多数AI模型在此测试中表现低迷,如OpenAI的o1-pro和DeepSeek的R1得分仅1%-1.3%,GPT-4.5等强模型得分约1%。相比之下,人类参与者组成的小组平均答对60%的问题。ARC-AGI-2通过复杂视觉谜题测试AI实时模式识别能力,避免单纯依赖计算资源。与ARC-AGI-1相比,新测试引入效率指标,强调技能获取和应用的经济性。尽管OpenAI的o3在ARC-AGI-1上曾达75.7%,但在ARC-AGI-2中即便投入200美元计算资源,得分仍仅为4%。此次测试引发行业关注,Arc Prize基金会计划2025年竞赛,目标是让AI在测试中达到85%准确率且单任务成本不超0.42美元。
原文链接
本文链接:https://kx.umi6.com/article/16104.html
转载请注明文章出处
相关推荐
换一换
最新研究:AI已经能在几分钟内通过CFA最难级别考试
2025-09-24 22:51:32
2025年度最全面的AI报告:谁在赚钱,谁爱花钱,谁是草台班子
2025-10-13 17:00:38
六大AI实盘交易追踪:中国模型收益领跑,GPT本金亏到不足三成
2025-10-23 18:12:20
比DeepSeek贵了400倍,GPT-5.2想钱想疯了?
2025-12-15 11:33:25
英伟达CEO黄仁勋:未来十年世界上大部分汽车将实现自动驾驶或高度自动驾驶
2026-01-06 15:13:14
宇树王兴兴:机器人性能已达标 AI模型称成最大瓶颈
2025-09-11 19:02:35
谷歌开源抗癌 AI 模型:模拟 4000 种药物后锁定潜在抗癌药
2025-10-16 14:56:03
亚马逊云科技发布 Nova 2 系列 AI 模型,同步推出 Nova Forge 定制服务
2025-12-03 09:12:53
OpenAI 想赢的不是下一次发布会,而是下一代入口
2025-12-19 21:10:33
在训练中给人工智能一种邪恶的“疫苗”,可能会让它变得更好
2025-08-04 20:02:39
WAIC 2025 主论坛演讲 | MiniMax 创始人闫俊杰:每个人的 AI
2025-07-26 17:45:10
资金算力决定论下的「1%」例外
2025-12-09 10:28:45
AI 3D大模型Tripo 3.0发布:参数量达200亿 草图秒变3D
2025-08-22 17:51:52
639 文章
452298 浏览
24小时热文
更多
-
2026-03-10 09:02:22 -
2026-03-10 09:01:12 -
2026-03-10 09:00:02