2月23日,OpenAI员工指责xAI公司发布的Grok 3 AI模型基准测试结果具有误导性。xAI在博客中展示Grok 3在AIME 2025数学考试中的表现,声称超过OpenAI的o3-mini-high模型。但OpenAI员工指出,xAI未包括o3-mini-high在‘cons@64’条件下的得分,这种条件下模型尝试次数更多,可能提高分数。xAI联合创始人巴布什金否认误导行为,并指出OpenAI也曾发布类似图表。此外,有第三方重新绘制了更准确的图表,但仍有人质疑现有基准测试未能充分反映模型的真实性能和成本。
原文链接
本文链接:https://kx.umi6.com/article/14076.html
转载请注明文章出处
相关推荐
换一换
OpenAI CEO称美国不应为AI企业提供救助
2025-11-07 17:03:30
OpenAI 在德国吃官司:ChatGPT 未经许可使用歌词属于侵权行为
2025-11-11 18:22:32
OpenAI最快将于下周二发布GPT-5.2
2025-12-06 07:18:55
谷歌 Gemini 3 反击战:OpenAI GPT-5.2 被曝提前至下周发布,从新功能转向速度与稳定性提升
2025-12-06 09:19:14
收到反 AI 极端分子暴力威胁后,OpenAI 封锁旧金山办公室
2025-11-30 14:14:22
消息称 OpenAI 进军医疗健康领域,探索开发消费级健康工具
2025-11-10 19:27:33
AI没有航天香?前红杉资本掌舵人称:SpaceX比OpenAI更值钱
2025-11-19 17:29:38
截胡 OpenAI:谷歌率先公测“奥数金牌级”推理 AI 模型 Gemini 3 Deep Think
2025-12-05 14:33:37
AI投资须政府兜底? OpenAI奥尔特曼紧急“灭火”:2030年营收达数千亿美元
2025-11-07 09:43:08
前红杉资本掌舵人:SpaceX比OpenAI更值钱
2025-11-19 19:34:18
OpenAI正在大举从苹果硬件工程团队挖人
2025-11-24 15:05:57
反超Gemini 3!马斯克放出Grok4.1快速推理版,还曝出了新一轮150亿美元融资
2025-11-20 13:21:12
OpenAI开始变得俗气了
2025-11-15 16:58:14
601 文章
381384 浏览
24小时热文
更多
-
2025-12-08 18:41:52 -
2025-12-08 18:40:45 -
2025-12-08 18:40:02