4月21日,OpenAI的o3模型基准测试成绩遭质疑。去年12月,OpenAI宣称o3能在FrontierMath上正确回答超25%的问题,远超对手。但Epoch研究所的独立测试显示,公开版o3得分仅约10%,低于预期。OpenAI称其高分基于更强计算资源,而Epoch认为测试设置或评估版本不同导致差异。ARC Prize基金会证实公开版o3为调整版,性能较测试版弱。尽管如此,后续o3衍生模型表现更优,OpenAI计划推出更强版本o3-pro。此事凸显AI基准测试的不确定性,类似争议在行业内愈发常见。
原文链接
本文链接:https://kx.umi6.com/article/17494.html
转载请注明文章出处
相关推荐
换一换
OpenAI将收购人工智能安全平台Promptfoo
2026-03-10 08:58:57
OpenAI新模型不是GPTX!全新预训练“土豆”曝光,Sora成弃子的原因找到了
2026-04-05 18:01:58
OpenAI推动伊利诺伊州先进AI免责立法
2026-04-10 17:22:59
OpenAI关停Sora 奥尔特曼坦言:为了下一代AI 集中计算资源
2026-04-07 20:16:56
投资人不买账 OpenAI估值8520亿美元遭质疑:战略转向引发争议
2026-04-15 06:41:58
GPT-5.4意外泄露!OpenAI最新模型瞄准这2大能力突围
2026-03-03 19:25:38
OpenAI要求谷歌将ChatGPT列为默认搜索引擎之一
2026-03-23 20:45:43
马斯克诉OpenAI案新进展:微软CEO纳德拉称马斯克从未向其质疑微软投资
2026-05-12 12:09:18
马斯克称OpenAI是自己的创意 现任CEO奥尔特曼是“小偷”
2026-04-29 14:26:51
OpenAI推出Codex Labs
2026-04-21 22:30:39
OpenAI的Codex登陆亚马逊Bedrock平台
2026-04-29 02:54:02
OpenAI首席营收官:企业业务收入占比超过40%
2026-04-09 07:54:07
OpenAI推出药物研发AI模型 挑战谷歌
2026-04-17 05:42:36
764 文章
712544 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41