4月21日,OpenAI的o3模型基准测试成绩遭质疑。去年12月,OpenAI宣称o3能在FrontierMath上正确回答超25%的问题,远超对手。但Epoch研究所的独立测试显示,公开版o3得分仅约10%,低于预期。OpenAI称其高分基于更强计算资源,而Epoch认为测试设置或评估版本不同导致差异。ARC Prize基金会证实公开版o3为调整版,性能较测试版弱。尽管如此,后续o3衍生模型表现更优,OpenAI计划推出更强版本o3-pro。此事凸显AI基准测试的不确定性,类似争议在行业内愈发常见。
原文链接
本文链接:https://kx.umi6.com/article/17494.html
转载请注明文章出处
相关推荐
.png)
换一换
“蛋糕”被抢!微软百亿美元投资OpenAI 竟然投出一个竞争对手?
2025-06-26 11:57:42
下手真快!Meta从OpenAI挖走三位研究员 此前奥尔特曼还曾出言嘲讽
2025-06-26 16:24:52
OpenAI的「独立战争」
2025-07-05 11:58:16
445 文章
77148 浏览
24小时热文
更多

-
2025-07-19 22:57:32
-
2025-07-19 21:58:20
-
2025-07-19 21:57:13