近日,OpenAI的中杯o3模型在ARC-AGI推理测试中表现亮眼,得分达57%,成本仅为1.5美元/任务,相比第二名翻倍且成本仅为其1/20,成为当前OpenAI模型中的‘性价比之王’。该测试由ARC Prize官方组织,评估模型的推理能力。结果显示,o3在ARC-AGI-1测试中表现优异,但在升级版ARC-AGI-2中准确率未超3%。值得注意的是,此次的o3虽沿用旧名,但经过微调更适合聊天与产品应用,而非专为测试设计。相比去年12月发布的o3-preview,新版本在成本控制上有显著提升,但准确率有所下降。此外,高级推理设置下的o3(high)因成本高昂且效率较低,未能全面完成测试。ARC官方指出,早期响应的准确率更高,高级推理未必高效,且各版本间每秒token数差异不大。DeepSeek-R1在相同测试中得分仅为15.8%,逊色于o3。
原文链接
本文链接:https://kx.umi6.com/article/17614.html
转载请注明文章出处
相关推荐
.png)
换一换
OpenAI或将失去孙正义200亿美元投资
2025-06-20 22:07:38
第十六批 18 组推荐使用外语词中文译名公布,AIGC 有了中文名“人工智能生成内容”
2024-12-11 09:22:35
利用 AI 生成“小姐姐”照片视频实施“流水化”诈骗,上海破获一起“恋爱交友”电诈案件
2025-02-24 14:28:36
425 文章
65675 浏览
24小时热文
更多

-
2025-07-18 21:46:36
-
2025-07-18 21:46:03
-
2025-07-18 21:45:30