北京时间4月17日,OpenAI发布多模态推理大模型o3,自称性能超越行业对手。然而,研究机构Epoch AI的第三方测试显示,o3在FrontierMath上的得分仅为10%,远低于OpenAI此前宣称的25%。Epoch AI认为,双方测试差异可能源于评估框架、测试时间和数据集的不同。此外,ARC Prize Foundation称公开版o3经过优化,性能不及预发布版本。基准测试争议正成为AI行业常态,近期xAI和Meta的模型也面临类似质疑。
原文链接
本文链接:https://kx.umi6.com/article/17500.html
转载请注明文章出处
相关推荐
换一换
OpenAI前高管坦言公司“掉链子” 让竞争对手谷歌得以翻身
2026-01-24 00:23:19
OpenAI 计划于今年下半年推出首款硬件设备
2026-01-20 00:22:40
OpenAI:关于芯片供应 公司已做到“对未来需求心中有数”
2026-02-20 07:10:46
OpenAI据悉考虑与北约签订合同
2026-03-04 14:47:17
OpenAI计划于2026年推出首款硬件设备
2026-01-19 23:22:26
OpenAI为员工定制特殊版ChatGPT
2026-02-12 19:45:50
OpenAI多名资深研究人员离职
2026-02-03 19:56:24
GPT-5.3上线Codex!OpenAI回应Claude新模型只用了15分钟
2026-02-06 11:46:30
OpenAI明日举办面向AI开发者的线上研讨会
2026-01-26 08:58:34
清华数学系大神跳槽OpenAI!曾主导SAM与Llama开发,Sora负责人:欢迎加入
2026-02-25 13:18:07
OpenAI据悉拟在ChatGPT中接入视频生成工具Sora
2026-03-11 16:17:18
OpenAI试水广告业务 定价对标高端资源
2026-01-26 23:41:21
OpenAI推出Prism 可用于撰写论文和协作研究
2026-01-28 10:18:55
725 文章
559016 浏览
24小时热文
更多
-
2026-04-24 18:31:29 -
2026-04-24 18:30:24 -
2026-04-24 18:29:17