中杯o3成OpenAI“性价比之王”？ARC-AGI测试结果出炉：得分翻倍、成本仅1/20

2025-04-23 11:51:39

电子诗篇

发布在

快讯

阅读：835

近日，OpenAI的中杯o3模型在ARC-AGI推理测试中表现亮眼，得分达57%，成本仅为1.5美元/任务，相比第二名翻倍且成本仅为其1/20，成为当前OpenAI模型中的‘性价比之王’。该测试由ARC Prize官方组织，评估模型的推理能力。结果显示，o3在ARC-AGI-1测试中表现优异，但在升级版ARC-AGI-2中准确率未超3%。值得注意的是，此次的o3虽沿用旧名，但经过微调更适合聊天与产品应用，而非专为测试设计。相比去年12月发布的o3-preview，新版本在成本控制上有显著提升，但准确率有所下降。此外，高级推理设置下的o3(high)因成本高昂且效率较低，未能全面完成测试。ARC官方指出，早期响应的准确率更高，高级推理未必高效，且各版本间每秒token数差异不大。DeepSeek-R1在相同测试中得分仅为15.8%，逊色于o3。

原文链接

本文链接：https://kx.umi6.com/article/17614.html

转载请注明文章出处

ARC-AGI