3月25日,Arc Prize基金会推出全新AI测试ARC-AGI-2,旨在更精准评估AI通用智能。目前多数AI模型在此测试中表现低迷,如OpenAI的o1-pro和DeepSeek的R1得分仅1%-1.3%,GPT-4.5等强模型得分约1%。相比之下,人类参与者组成的小组平均答对60%的问题。ARC-AGI-2通过复杂视觉谜题测试AI实时模式识别能力,避免单纯依赖计算资源。与ARC-AGI-1相比,新测试引入效率指标,强调技能获取和应用的经济性。尽管OpenAI的o3在ARC-AGI-1上曾达75.7%,但在ARC-AGI-2中即便投入200美元计算资源,得分仍仅为4%。此次测试引发行业关注,Arc Prize基金会计划2025年竞赛,目标是让AI在测试中达到85%准确率且单任务成本不超0.42美元。
原文链接
本文链接:https://kx.umi6.com/article/16104.html
转载请注明文章出处
相关推荐
换一换
马斯克xAI新模型上线,通过“50米外洗车店”测试,回答偏好高度贴合老马本人
2026-02-18 16:31:22
这个AI精准模拟人类行为大脑状态,上Nature了
2025-07-15 17:48:52
有望代表未来旅行票务平台趋势:谷歌推出利用自然语言“AI 订机票”Flight Deals 功能
2025-08-16 16:27:36
美亿万富翁投资人马克・库班呼吁:在 AI 模型上投放广告应被视作违法行为
2025-07-28 19:18:03
华为AI模型运行专利公布
2025-09-05 15:25:04
靠AI破解癌症,初创公司融下3000万刀!新目标:建10亿单细胞数据集
2025-08-13 14:33:57
马上,OpenAI就会成为最大的无人公司
2025-10-13 07:54:55
快手可灵 2.5 Turbo 模型上线,较上代模型便宜近 30%
2025-09-23 20:22:21
新研究:人类读指针式时钟准确率达 89.1%,顶尖 AI 仅 13.3%
2025-09-14 16:42:29
马斯克最贵AI 首批实测炸了,Grok4一边封神一边翻车,网友:2万块就这?
2025-07-11 17:46:43
OpenAI 3万亿美元测试,AI首战44个行业人类专家!
2025-09-27 15:43:00
全球首款:浙大一院、阿里达摩院发布主动脉急诊 AI 模型,快速识别“最凶险胸痛”
2025-08-27 17:05:25
宇树王兴兴:机器人性能已达标 AI模型称成最大瓶颈
2025-09-11 19:02:35
675 文章
531643 浏览
24小时热文
更多
-
2026-04-24 18:31:29 -
2026-04-24 18:30:24 -
2026-04-24 18:29:17