1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

4月21日,OpenAI的o3模型基准测试成绩遭质疑。去年12月,OpenAI宣称o3能在FrontierMath上正确回答超25%的问题,远超对手。但Epoch研究所的独立测试显示,公开版o3得分仅约10%,低于预期。OpenAI称其高分基于更强计算资源,而Epoch认为测试设置或评估版本不同导致差异。ARC Prize基金会证实公开版o3为调整版,性能较测试版弱。尽管如此,后续o3衍生模型表现更优,OpenAI计划推出更强版本o3-pro。此事凸显AI基准测试的不确定性,类似争议在行业内愈发常见。

原文链接
本文链接:https://kx.umi6.com/article/17494.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
马斯克与OpenAI的恩怨情仇
2026-01-23 22:18:50
OpenAI 更新手机版 ChatGPT,现支持手动调节 AI“思考深度”
2025-12-30 09:10:29
美国甲骨文公司:不会延迟交付为OpenAI建造的数据中心
2025-12-13 20:07:27
389万寻找翁荔继任者!OpenAI紧急开招安全防范负责人
2025-12-29 16:29:12
不读博士,照样进OpenAI!o1核心成员现身说法了
2026-01-25 20:26:08
OpenAI和谷歌通过免费赠品争夺印度用户和训练数据
2025-12-17 20:03:37
OpenAI拟在ChatGPT中测试定向广告加码营收增长计划
2026-01-17 04:09:18
OpenAI据称计划以8300亿美元的估值筹资至多1000亿美元 以支持其雄心勃勃的增长计划
2025-12-19 07:34:47
迪士尼 CEO 鲍勃・艾格谈为何投资 OpenAI:若不拥抱技术,我们将变得被动
2025-12-12 16:59:37
OpenAI推出Prism 可用于撰写论文和协作研究
2026-01-28 10:18:55
甲骨文部分用于OpenAI的数据中心完工时间将从2027年推迟到2028年
2025-12-13 01:24:50
OpenAI据悉正在开发一款对标苹果AirPods的人工智能设备
2026-01-14 15:44:46
OpenAI:推出用户年龄预测功能 以保护未成年用户
2026-01-21 15:17:45
24小时热文
更多
扫一扫体验小程序