1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

4月21日,OpenAI的o3模型基准测试成绩遭质疑。去年12月,OpenAI宣称o3能在FrontierMath上正确回答超25%的问题,远超对手。但Epoch研究所的独立测试显示,公开版o3得分仅约10%,低于预期。OpenAI称其高分基于更强计算资源,而Epoch认为测试设置或评估版本不同导致差异。ARC Prize基金会证实公开版o3为调整版,性能较测试版弱。尽管如此,后续o3衍生模型表现更优,OpenAI计划推出更强版本o3-pro。此事凸显AI基准测试的不确定性,类似争议在行业内愈发常见。

原文链接
本文链接:https://kx.umi6.com/article/17494.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI任命英国前财长奥斯本负责“OpenAI for Countries”项目
2025-12-17 08:30:53
建议你不要再相信AI基准测试,排行榜已经没啥公信力了
2025-12-04 12:18:33
OpenAI 奥尔特曼:高看了谷歌 Gemini 3,明年 1 月结束“红色警报”
2025-12-12 08:38:54
OpenAI向全球用户推出ChatGPT群聊功能
2025-11-21 11:15:57
最新测试版 App 代码显示,ChatGPT 未来或引入广告
2025-11-29 23:44:48
Transformer作者爆料GPT-5.1内幕!OpenAI内部命名规则变乱了
2025-11-30 14:13:24
截胡 OpenAI:谷歌率先公测“奥数金牌级”推理 AI 模型 Gemini 3 Deep Think
2025-12-05 14:33:37
OpenAI和NextDC计划斥资46亿美元在澳大利亚悉尼建设数据中心
2025-12-05 11:28:34
OpenAI 投了一家初创公司 Red Queen Bio,旨在阻止 AI 制造生物武器
2025-11-14 16:05:54
免费用:OpenAI 最强 AI 生图模型登场,奥尔特曼变身性感消防员
2025-12-17 08:27:39
业界风向标变了?OpenAI被票选为“最有可能失败初创公司”第二名!
2025-11-18 11:15:52
OpenAI和Anthropic寻求更多办公空间以在欧洲扩张
2025-12-18 16:58:01
OpenAI 推出购物研究工具,ChatGPT 变身更懂你的 AI 购物小助手
2025-11-25 09:44:49
24小时热文
更多
扫一扫体验小程序