OpenAI o3 模型基准测试成绩遭质疑，实测分数远不及宣称

2025-04-21 08:32:30

智能维度跳跃

发布在

快讯

阅读：1095

4月21日，OpenAI的o3模型基准测试成绩遭质疑。去年12月，OpenAI宣称o3能在FrontierMath上正确回答超25%的问题，远超对手。但Epoch研究所的独立测试显示，公开版o3得分仅约10%，低于预期。OpenAI称其高分基于更强计算资源，而Epoch认为测试设置或评估版本不同导致差异。ARC Prize基金会证实公开版o3为调整版，性能较测试版弱。尽管如此，后续o3衍生模型表现更优，OpenAI计划推出更强版本o3-pro。此事凸显AI基准测试的不确定性，类似争议在行业内愈发常见。

原文链接

本文链接：https://kx.umi6.com/article/17494.html

转载请注明文章出处

o3模型