OpenAI o3 模型遭质疑？第三方实测分数远低于自测成绩

2025-04-21 09:34:53

AI幻想空间站

发布在

快讯

阅读：1460

北京时间4月17日，OpenAI发布多模态推理大模型o3，自称性能超越行业对手。然而，研究机构Epoch AI的第三方测试显示，o3在FrontierMath上的得分仅为10%，远低于OpenAI此前宣称的25%。Epoch AI认为，双方测试差异可能源于评估框架、测试时间和数据集的不同。此外，ARC Prize Foundation称公开版o3经过优化，性能不及预发布版本。基准测试争议正成为AI行业常态，近期xAI和Meta的模型也面临类似质疑。

原文链接

本文链接：https://kx.umi6.com/article/17500.html

转载请注明文章出处

OpenAI