近日,OpenAI的中杯o3模型在ARC-AGI推理测试中表现亮眼,得分达57%,成本仅为1.5美元/任务,相比第二名翻倍且成本仅为其1/20,成为当前OpenAI模型中的‘性价比之王’。该测试由ARC Prize官方组织,评估模型的推理能力。结果显示,o3在ARC-AGI-1测试中表现优异,但在升级版ARC-AGI-2中准确率未超3%。值得注意的是,此次的o3虽沿用旧名,但经过微调更适合聊天与产品应用,而非专为测试设计。相比去年12月发布的o3-preview,新版本在成本控制上有显著提升,但准确率有所下降。此外,高级推理设置下的o3(high)因成本高昂且效率较低,未能全面完成测试。ARC官方指出,早期响应的准确率更高,高级推理未必高效,且各版本间每秒token数差异不大。DeepSeek-R1在相同测试中得分仅为15.8%,逊色于o3。
原文链接
本文链接:https://kx.umi6.com/article/17614.html
转载请注明文章出处
相关推荐
换一换
黄仁勋否认对OpenAI不满 透露将巨额投资
2026-02-01 19:56:16
OpenAI:将自行承担“星际之门”项目能源费用,确保不会推高电价
2026-01-21 13:12:22
OpenAI与AWS达成协议 以竞标美国政府合同
2026-03-17 22:15:04
缺乏实质证据 美国法院暂时驳回xAI针对OpenAI的商业机密侵权指控
2026-02-25 17:42:04
OpenAI被揭露惊天内幕:要挑拨大国竞争 像核技术那样发横财
2026-04-07 13:58:20
OpenAI在ChatGPT中加载广告,这是一个1.4万亿美元的市场
2026-01-21 13:10:00
OpenAI战略大转舵 全速冲刺ChatGPT商业化
2026-02-03 13:39:40
2亿美元薪资都留不住 硅谷“最贵华人”被OpenAI挖走
2026-02-27 14:47:59
屏幕消失之后:OpenAI的智能硬件新赌注
2026-01-21 08:59:13
OpenAI缩减ChatGPT内置购物功能规划
2026-03-05 10:06:59
GPT-5.4意外泄露!OpenAI最新模型瞄准这2大能力突围
2026-03-03 19:25:38
OpenAI据悉拟在ChatGPT中接入视频生成工具Sora
2026-03-11 16:17:18
OpenAI:GPT-5.2/Codex模型的速度现已提升40%
2026-02-04 13:45:40
688 文章
537884 浏览
24小时热文
更多
-
2026-04-24 18:31:29 -
2026-04-24 18:30:24 -
2026-04-24 18:29:17