2025年8月,OpenAI因GPT-5编程能力测试问题引发争议。官方使用的SWE-bench Verified基准本应包含500道题,但OpenAI自行删减23道,仅用477道题评估,导致结果存疑。若将删减题目默认为零分,GPT-5得分甚至低于Claude Opus 4.1,两者差距仅为0.4%。这一操作延续了GPT-4.1发布时的做法,理由是部分题目无法在其基础设施运行。更讽刺的是,SWE-bench Verified本身是OpenAI提出并优化的基准。与此同时,Anthropic明确指出其Claude 4系列模型基于完整500题测试,表现优于GPT-5。目前,最原始的SWE-bench榜单中,Claude 4 Opus仍居首位。
原文链接
本文链接:https://kx.umi6.com/article/23424.html
转载请注明文章出处
相关推荐
.png)
换一换
实测GPT-5:写作坠入谷底,编程一骑绝尘
2025-08-08 09:11:19
OPENAI推出更强大的GPT-5模型 适用于编码和写作
2025-08-08 02:01:55
GPT-5来了,Kimi却掉队了
2025-08-12 15:22:00
GPT-5要来了?OpenAI官方预告引遐想 AI应用或迎来加速发展
2025-08-07 09:47:28
ChatGPT 为何退回了 4o ?
2025-08-10 15:48:45
OpenAI“截胡”IMO金牌,奥特曼为GPT-5献上“核弹级”预热
2025-07-20 15:09:31
OpenAI 奥尔特曼“秀肌肉”:GPT-5 实测具备高效整合网络信息能力
2025-08-04 08:52:36
四种变体可选:OpenAI 最强模型 GPT-5 宣传文案遭偷跑,增强代码质量 / 用户体验
2025-08-07 15:52:58
深聊GPT-5发布:过度营销的反噬与AI技术困局
2025-08-12 12:16:52
微软:将把OpenAI的GPT-5整合到消费者、开发者和企业产品中
2025-08-08 02:03:03
GPT-5强势登场:一键生成网页、写作像诗人、更懂健康问题
2025-08-08 04:03:56
第一时间体验GPT-5,人人免费可用,马斯克表示不服
2025-08-08 06:03:18
Claude4发布:替代人类程序员所需的条件,现在它都有了
2025-05-23 10:49:07
436 文章
87168 浏览
24小时热文
更多

-
2025-08-12 17:23:47
-
2025-08-12 17:22:40
-
2025-08-12 17:21:25