2025年8月,OpenAI因GPT-5编程能力测试问题引发争议。官方使用的SWE-bench Verified基准本应包含500道题,但OpenAI自行删减23道,仅用477道题评估,导致结果存疑。若将删减题目默认为零分,GPT-5得分甚至低于Claude Opus 4.1,两者差距仅为0.4%。这一操作延续了GPT-4.1发布时的做法,理由是部分题目无法在其基础设施运行。更讽刺的是,SWE-bench Verified本身是OpenAI提出并优化的基准。与此同时,Anthropic明确指出其Claude 4系列模型基于完整500题测试,表现优于GPT-5。目前,最原始的SWE-bench榜单中,Claude 4 Opus仍居首位。
原文链接
本文链接:https://kx.umi6.com/article/23424.html
转载请注明文章出处
相关推荐
换一换
GPT-5为什么没有带来更多惊喜?
2025-08-10 14:47:11
苹果发布 Xcode 26 Beta 7:新增 GPT-5 支持并集成 Claude
2025-08-29 07:32:56
GPT-5测试被质疑作弊,故意避开难题刷高分?
2025-08-12 12:18:06
GPT-5“让人失望”,AI“撞墙”了吗?
2025-08-17 19:40:29
GPT-5发威,逼得马斯克 「放大招」?
2025-08-12 11:17:40
OpenAI两位首席最新采访信息量好大
2025-09-28 19:59:09
OpenAI总裁透露GPT-5改了推理范式,AGI实现要靠现实反馈
2025-08-18 17:48:45
因为GPT-5,这群人决定在Reddit上起义
2025-08-11 11:01:24
微软 Visual Studio 上线 GPT-5,复杂任务推理决策能力“大幅”提升
2025-08-13 08:31:33
我们都错怪GPT-5了,路由统一算力,免费用户也能创造收益
2025-08-14 15:57:37
ChatGPT 为何退回了 4o ?
2025-08-10 15:48:45
陶哲轩用GPT-5解决数学难题:仅29行Python代码
2025-10-04 12:59:43
GPT-5超越人类医生!推理能力比专家高出24%,理解力强29%
2025-08-15 16:18:18
693 文章
592471 浏览
24小时热文
更多
-
2026-04-24 08:00:05 -
2026-04-24 06:56:46 -
2026-04-24 06:55:41