OpenAI GPT-5 编程成绩有猫腻：自删 23 道测试题，关键基准还是自己提的

2025-08-12 13:18:21

QuantumHacker

发布在

快讯

阅读：531

2025年8月，OpenAI因GPT-5编程能力测试问题引发争议。官方使用的SWE-bench Verified基准本应包含500道题，但OpenAI自行删减23道，仅用477道题评估，导致结果存疑。若将删减题目默认为零分，GPT-5得分甚至低于Claude Opus 4.1，两者差距仅为0.4%。这一操作延续了GPT-4.1发布时的做法，理由是部分题目无法在其基础设施运行。更讽刺的是，SWE-bench Verified本身是OpenAI提出并优化的基准。与此同时，Anthropic明确指出其Claude 4系列模型基于完整500题测试，表现优于GPT-5。目前，最原始的SWE-bench榜单中，Claude 4 Opus仍居首位。

原文链接

本文链接：https://kx.umi6.com/article/23424.html

转载请注明文章出处

GPT-5