北京时间4月17日,OpenAI发布多模态推理大模型o3,自称性能超越行业对手。然而,研究机构Epoch AI的第三方测试显示,o3在FrontierMath上的得分仅为10%,远低于OpenAI此前宣称的25%。Epoch AI认为,双方测试差异可能源于评估框架、测试时间和数据集的不同。此外,ARC Prize Foundation称公开版o3经过优化,性能不及预发布版本。基准测试争议正成为AI行业常态,近期xAI和Meta的模型也面临类似质疑。
原文链接
本文链接:https://kx.umi6.com/article/17500.html
转载请注明文章出处
相关推荐
.png)
换一换
GPT-5 登场?OpenAI 预告北京时间明天凌晨 1 时直播
2025-07-17 19:29:14
闭源主力选手拥抱开源?OpenAI 被曝最快下周推开源 AI 模型,o3 mini 级推理能力
2025-07-10 11:22:08
紧急加薪+全员放假!OpenAI被连挖8人后 真慌了
2025-06-30 23:47:53
465 文章
82739 浏览
24小时热文
更多

-
2025-07-19 22:57:32
-
2025-07-19 21:58:20
-
2025-07-19 21:57:13