4月21日,OpenAI的o3模型基准测试成绩遭质疑。去年12月,OpenAI宣称o3能在FrontierMath上正确回答超25%的问题,远超对手。但Epoch研究所的独立测试显示,公开版o3得分仅约10%,低于预期。OpenAI称其高分基于更强计算资源,而Epoch认为测试设置或评估版本不同导致差异。ARC Prize基金会证实公开版o3为调整版,性能较测试版弱。尽管如此,后续o3衍生模型表现更优,OpenAI计划推出更强版本o3-pro。此事凸显AI基准测试的不确定性,类似争议在行业内愈发常见。
原文链接
本文链接:https://kx.umi6.com/article/17494.html
转载请注明文章出处
相关推荐
换一换
不读博士,照样进OpenAI!o1核心成员现身说法了
2026-01-25 20:26:08
英伟达、微软、亚马逊正就向OpenAI投资高达600亿美元事宜展开谈判
2026-01-29 11:26:08
OpenAI 回应 ChatGPT 出现广告:平台 95% 是免费用户,会坚守一些原则
2026-01-21 13:13:21
OpenAI CFO称公司2025年年化收入已突破200亿美元
2026-01-20 10:01:28
英伟达据悉接近达成协议在OpenAI最新一轮融资中投资200亿美元
2026-02-04 08:28:18
OpenAI明日举办面向AI开发者的线上研讨会
2026-01-26 08:58:34
软银集团4-12月净利润增至5倍 创历史同期新高
2026-02-12 16:32:10
OpenAI发布Windows版Codex应用
2026-03-05 10:04:49
分析师:2030年前 OpenAI广告年收入有望达250亿美元
2026-01-20 15:14:56
清华数学系大神跳槽OpenAI!曾主导SAM与Llama开发,Sora负责人:欢迎加入
2026-02-25 13:18:07
OpenAI首席信息安全官宣布将离职
2026-01-27 14:22:25
OpenAI 首席财务官:过去三年,公司收入、算力均累计增长约十倍
2026-01-19 16:03:05
OpenAI推出Prism 可用于撰写论文和协作研究
2026-01-28 10:18:55
716 文章
557140 浏览
24小时热文
更多
-
2026-04-05 22:13:40 -
2026-04-05 18:03:06 -
2026-04-05 18:01:58