4月21日,OpenAI的o3模型基准测试成绩遭质疑。去年12月,OpenAI宣称o3能在FrontierMath上正确回答超25%的问题,远超对手。但Epoch研究所的独立测试显示,公开版o3得分仅约10%,低于预期。OpenAI称其高分基于更强计算资源,而Epoch认为测试设置或评估版本不同导致差异。ARC Prize基金会证实公开版o3为调整版,性能较测试版弱。尽管如此,后续o3衍生模型表现更优,OpenAI计划推出更强版本o3-pro。此事凸显AI基准测试的不确定性,类似争议在行业内愈发常见。
原文链接
本文链接:https://kx.umi6.com/article/17494.html
转载请注明文章出处
相关推荐
换一换
软银为进一步投资OpenAI做准备:拟借款50亿美元充实资金储备
2025-10-11 10:34:20
甲骨文CEO:OpenAI每年支付600亿美元“当然没问题”
2025-10-14 04:06:44
OpenAI 研究人员夸大 GPT-5 数学能力后删帖,遭杨立昆等业界人士批评
2025-10-19 08:45:17
OpenAI首个AI浏览器发布,能改变上网的方式吗?
2025-10-22 08:42:28
消息称 OpenAI 正开发新的生成式音乐工具,可为视频添加配乐
2025-10-26 08:00:01
曝 OpenAI 正向多家企业推介使用 ChatGPT 登录:可将 API 成本转嫁用户,无形扩大影响力
2025-10-18 22:38:28
OpenAI 招募逾百名前投行人士训练 AI,目标干掉初级银行从业者的重复活
2025-10-22 10:45:33
OpenAI掌舵人三年演讲梳理:一文读懂Altman
2025-10-22 18:50:58
OpenAI和博通宣布战略合作 博通盘前涨12%
2025-10-13 22:04:43
鸿海科技台股大涨8% 董事长刘扬伟会晤OpenAI并计划对话英伟达
2025-10-16 13:55:20
OpenAI做电商,国内谁会跟进?
2025-10-16 16:58:57
微软 Azure 推出业界首个生产级英伟达 GB300 NVL72 大型集群,顾客为 OpenAI
2025-10-11 10:01:36
OpenAI“星际之门”拉美首站:将在阿根廷建设 500MW 规模 AI 数据中心
2025-10-13 12:57:05
553 文章
274751 浏览
24小时热文
更多
-
2025-11-02 22:45:12 -
2025-11-02 21:44:52 -
2025-11-02 20:42:55