2月23日,OpenAI员工指责xAI公司发布的Grok 3 AI模型基准测试结果具有误导性。xAI在博客中展示Grok 3在AIME 2025数学考试中的表现,声称超过OpenAI的o3-mini-high模型。但OpenAI员工指出,xAI未包括o3-mini-high在‘cons@64’条件下的得分,这种条件下模型尝试次数更多,可能提高分数。xAI联合创始人巴布什金否认误导行为,并指出OpenAI也曾发布类似图表。此外,有第三方重新绘制了更准确的图表,但仍有人质疑现有基准测试未能充分反映模型的真实性能和成本。
原文链接
本文链接:https://kx.umi6.com/article/14076.html
转载请注明文章出处
相关推荐
.png)
换一换
OpenAI正在调查ChatGPT无法显示回复的问题
2025-09-03 16:50:01
OpenAI:公司单月营收破 10 亿美元,算力短缺成最大挑战
2025-08-21 11:29:45
OpenAI 迄今最智能 AI 模型:“六边形战士”GPT-5 登场,准确性、速度、推理能力等全面突破
2025-08-08 01:59:39
GPT-5要来了?OpenAI官方预告引遐想 AI应用或迎来加速发展
2025-08-07 09:47:28
OpenAI与Anthropic树立典范!AI老对手间开始“互测”模型安全性
2025-08-28 11:23:27
OpenAI 寻求增加收入,高管称不排除在 ChatGPT 内插入广告的可能
2025-08-15 10:11:06
OpenAI重组ChatGPT个性研究团队!
2025-09-06 11:36:18
xAI推出高效推理模型Grok Code Fast 1
2025-08-29 08:36:39
Meta GenAI产品总监加入OpenAI
2025-08-27 21:08:35
OpenAI称将加强模型识别和应对情绪困扰的能力
2025-09-02 20:44:04
马斯克:xAI将对苹果采取法律行动
2025-08-12 10:16:54
OpenAI价格战新进展:将于印度推出月费不到5美元的新订阅计划
2025-08-19 16:09:41
OpenAI首席科学家访谈被紧急制止!有些名字现在不让说了……
2025-08-06 17:35:32
520 文章
206731 浏览
24小时热文
更多

-
2025-09-06 22:39:24
-
2025-09-06 21:38:26
-
2025-09-06 20:38:03