近日,OpenAI的中杯o3模型在ARC-AGI推理测试中表现亮眼,得分达57%,成本仅为1.5美元/任务,相比第二名翻倍且成本仅为其1/20,成为当前OpenAI模型中的‘性价比之王’。该测试由ARC Prize官方组织,评估模型的推理能力。结果显示,o3在ARC-AGI-1测试中表现优异,但在升级版ARC-AGI-2中准确率未超3%。值得注意的是,此次的o3虽沿用旧名,但经过微调更适合聊天与产品应用,而非专为测试设计。相比去年12月发布的o3-preview,新版本在成本控制上有显著提升,但准确率有所下降。此外,高级推理设置下的o3(high)因成本高昂且效率较低,未能全面完成测试。ARC官方指出,早期响应的准确率更高,高级推理未必高效,且各版本间每秒token数差异不大。DeepSeek-R1在相同测试中得分仅为15.8%,逊色于o3。
原文链接
本文链接:https://kx.umi6.com/article/17614.html
转载请注明文章出处
相关推荐
.png)
换一换
OpenAI、Anthropic 互评对方 AI 模型:GPT 存在谄媚行为,Claude 不易产生幻觉
2025-08-28 10:18:59
马斯克称xAI代码库被盗 涉案员工已跳槽OpenAI
2025-09-01 14:19:22
奥特曼交出ChatGPT指挥棒,女CEO接掌大权
2025-08-23 10:59:41
OpenAI正在调查ChatGPT无法显示回复的问题
2025-09-03 16:50:01
OpenAI重组ChatGPT个性研究团队!
2025-09-06 11:36:18
突发!微软与OpenAI同日开火:语音之战+通用大模型,AI霸权决战打响
2025-08-30 11:49:23
OpenAI的前世今生
2025-08-27 10:01:51
OpenAI 宣布 ChatGPT-4o 面向 Plus 和 Team 用户重新上线,下周推出迷你版 GPT-5
2025-08-09 16:33:15
OpenAI 重组“模型行为”团队,重点任务是让 ChatGPT“有性格”
2025-09-06 23:39:46
马斯克收购OpenAI新计划实锤了:找小扎筹千亿美元,果然敌人的敌人就是朋友…
2025-08-23 14:01:03
OpenAI夺金IOI,但输给3位中国高中生
2025-08-12 10:13:40
直播倒计时,OpenAI 最强模型 GPT-5 有望北京时间明日凌晨 1 点发布
2025-08-07 07:44:59
OpenAI进入新品发布周期 开源模型GPT-OSS打头阵
2025-08-06 08:26:35
479 文章
161566 浏览
24小时热文
更多

-
2025-09-07 16:47:03
-
2025-09-07 15:46:08
-
2025-09-07 14:45:54