1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

3月25日,Arc Prize基金会推出全新AI测试ARC-AGI-2,旨在更精准评估AI通用智能。目前多数AI模型在此测试中表现低迷,如OpenAI的o1-pro和DeepSeek的R1得分仅1%-1.3%,GPT-4.5等强模型得分约1%。相比之下,人类参与者组成的小组平均答对60%的问题。ARC-AGI-2通过复杂视觉谜题测试AI实时模式识别能力,避免单纯依赖计算资源。与ARC-AGI-1相比,新测试引入效率指标,强调技能获取和应用的经济性。尽管OpenAI的o3在ARC-AGI-1上曾达75.7%,但在ARC-AGI-2中即便投入200美元计算资源,得分仍仅为4%。此次测试引发行业关注,Arc Prize基金会计划2025年竞赛,目标是让AI在测试中达到85%准确率且单任务成本不超0.42美元。

原文链接
本文链接:https://kx.umi6.com/article/16104.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Kimi K2 高速版 AI 模型提速,输出速度最高可达每秒 100 Tokens
2025-08-22 16:51:22
OpenAI 的“iPhone 时刻”:奥尔特曼称 GPT-5 是全球最佳写作、编程 AI 模型,免费 ChatGPT 用户也能体验
2025-08-08 03:00:19
微软推出 Microsoft 365 Copilot Tuning,企业可用自己的数据训练 AI 模型
2025-05-20 01:28:36
OpenAI发布GPT-4.1 ,吊打GPT-4.5,14万/月的博士级AI曝光
2025-04-15 08:22:07
AI连电路图都看不懂?SeePhys新基准暴击多模态短板,正确率仅55%
2025-05-29 15:35:22
Anthropic 最强 AI 模型 Claude Sonnet 4 / Opus 4 有望明日发布
2025-05-22 11:27:22
马斯克的最强 AI 模型 Grok 4 现已免费开放,非订阅用户每天可限量使用
2025-08-11 10:02:03
谷歌发布 Gemini 2.5 Flash AI 模型:专为省钱高效而生
2025-04-10 09:39:06
远超摩尔定律!AI模型每7个月能力翻倍 美国智库:或瓦解民主制度
2025-07-06 16:15:29
李飞飞实验室2025 AI报告出炉:AI推理成本降低至1/280
2025-04-08 23:18:28
AI 模型 4o → o3:OpenAI 升级 Operator 智能体,浏览器交互更稳定、更准确
2025-05-24 09:54:25
觉醒第一步?OpenAI模型在研究中违抗命令,竟然篡改关机脚本
2025-05-26 22:57:10
“老当益壮”:AI 模型成功在 43 年前的 Commodore 64 电脑上运行
2025-05-04 11:01:32
24小时热文
更多
扫一扫体验小程序