近日,OpenAI的中杯o3模型在ARC-AGI推理测试中表现亮眼,得分达57%,成本仅为1.5美元/任务,相比第二名翻倍且成本仅为其1/20,成为当前OpenAI模型中的‘性价比之王’。该测试由ARC Prize官方组织,评估模型的推理能力。结果显示,o3在ARC-AGI-1测试中表现优异,但在升级版ARC-AGI-2中准确率未超3%。值得注意的是,此次的o3虽沿用旧名,但经过微调更适合聊天与产品应用,而非专为测试设计。相比去年12月发布的o3-preview,新版本在成本控制上有显著提升,但准确率有所下降。此外,高级推理设置下的o3(high)因成本高昂且效率较低,未能全面完成测试。ARC官方指出,早期响应的准确率更高,高级推理未必高效,且各版本间每秒token数差异不大。DeepSeek-R1在相同测试中得分仅为15.8%,逊色于o3。
原文链接
本文链接:https://kx.umi6.com/article/17614.html
转载请注明文章出处
相关推荐
.png)
换一换
OpenAI推出浏览器:“让位吧,Chrome”
2025-10-22 13:45:32
算力成最大技术瓶颈,OpenAI 首款 AI 硬件恐推迟发布
2025-10-06 10:35:13
OpenAI 推出网页浏览器 Atlas 后,谷歌股价一度下跌 3%
2025-10-22 11:45:19
OpenAI 调整版权策略,Sora 将允许正版动画角色客串出镜
2025-10-06 21:40:38
8 亿用户仅 5% 付费,OpenAI 急寻“钱路子”
2025-10-15 14:35:18
与OpenAI达成巨额算力基建协议 AMD股价盘前暴涨超20%
2025-10-06 20:40:34
飙涨23.7%,芯片巨头终于等来“泼天机遇”
2025-10-09 09:13:48
联邦法官:OpenAI必须提交有关知识产权风险、数据删除的Slack消息
2025-10-03 04:29:36
贴脸开大,OpenAI 研究员当面嘲讽马斯克为 xAI 提出的 AGI 愿景
2025-10-22 08:41:17
OpenAI 前瞻 ChatGPT 终极形态:迈步“App Store”时代,搭积木式创建 AI 智能体
2025-10-07 07:46:59
OpenAI 招募逾百名前投行人士训练 AI,目标干掉初级银行从业者的重复活
2025-10-22 10:45:33
日立与OpenAI建立战略合作伙伴关系
2025-10-21 13:28:29
OpenAI宣布推出基于ChatGPT技术构建的新型AI网页浏览器ChatGPT Atlas
2025-10-22 03:35:06
524 文章
240464 浏览
24小时热文
更多

-
2025-10-23 17:12:06
-
2025-10-23 17:10:54
-
2025-10-23 16:12:32