2025年8月12日,OpenAI因GPT-5在SWE-bench Verified测试中被质疑作弊引发争议。测试显示GPT-5得分74.9%,略高于Claude Opus 4.1的74.5%,但GPT-5仅完成477道题,少做23道难题,理由是‘基础设施无法运行’。分析机构SemiAnalysis指出,若将未答题算零分,GPT-5成绩会下降。此外,OpenAI推出的SWE-bench Verified测试集经过筛选,剔除了高难度题目,被批评为‘既是裁判又是选手’。而在更原汁原味的swebench.com榜单上,Claude 4 Opus反而领先。同日,OpenAI内部模型在IOI 2025竞赛中取得AI组第一,但该版本与公开版性能有差距。争议背后,AI竞赛中的微小差异成为营销焦点,但用户更关注价格优势,GPT-5价格仅为竞品的十分之一。
原文链接
本文链接:https://kx.umi6.com/article/23418.html
转载请注明文章出处
相关推荐
换一换
8500亿美元!OpenAI刷新AI公司估值纪录,领先第二名2.2倍
2026-02-20 18:37:00
OpenAI家务机器人售价2万美元
2026-01-06 03:42:50
OpenAI 全面上线“廉价版”ChatGPT Go 订阅方案:每月 8 美元,将包含广告
2026-01-17 08:17:48
OpenAI与Ginkgo合作使蛋白质生产成本降低40%
2026-02-06 03:31:10
OpenAI 首款硬件设备被曝为 AI 耳机,首年有望出货 4000~5000 万台
2026-01-21 12:05:04
软银集团4-12月净利润增至5倍 创历史同期新高
2026-02-12 16:32:10
英伟达、微软、亚马逊正就向OpenAI投资高达600亿美元事宜展开谈判
2026-01-29 11:26:08
又一个谷歌不作恶式的形象崩塌 OpenAI删除AI安全造福人类承诺
2026-02-14 22:47:09
GPT-5.4发布:OpenAI首个大一统模型,简直是龙虾原生
2026-03-06 09:42:29
马斯克向OpenAI和微软索赔最高达1340亿美元
2026-01-18 15:28:06
算力越高收入越多!OpenAI率先验证AI商业Scaling Law
2026-01-20 11:02:06
OpenAI战略大转舵 全速冲刺ChatGPT商业化
2026-02-03 13:39:40
消息称 OpenAI 要求外包人员上传真实工作成果,律师警告称风险极高
2026-01-12 09:24:27
668 文章
476784 浏览
24小时热文
更多
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18