2025年8月,OpenAI因GPT-5编程能力测试问题引发争议。官方使用的SWE-bench Verified基准本应包含500道题,但OpenAI自行删减23道,仅用477道题评估,导致结果存疑。若将删减题目默认为零分,GPT-5得分甚至低于Claude Opus 4.1,两者差距仅为0.4%。这一操作延续了GPT-4.1发布时的做法,理由是部分题目无法在其基础设施运行。更讽刺的是,SWE-bench Verified本身是OpenAI提出并优化的基准。与此同时,Anthropic明确指出其Claude 4系列模型基于完整500题测试,表现优于GPT-5。目前,最原始的SWE-bench榜单中,Claude 4 Opus仍居首位。
原文链接
本文链接:https://kx.umi6.com/article/23424.html
转载请注明文章出处
相关推荐
.png)
换一换
实测GPT-5:写作坠入谷底,编程一骑绝尘
2025-08-08 09:11:19
GPT-5与Transformer共同发明人Lukasz Kaiser重磅加盟,2025 全球机器学习技术大会全日程官宣!
2025-09-18 16:55:56
GPT-5发布了,到底有没有那么神?
2025-08-08 09:10:02
GPT-5 AI 模型全面登陆微软生态系统:更聪明、更连贯、更懂你
2025-08-08 09:07:40
真·博士水平!GPT-5首次给出第四矩定理显式收敛率,数学教授只点拨了一下
2025-09-10 17:40:34
“苹果牌 AI”拥抱 GPT-5,预计下月登陆 iOS / iPadOS / macOS 26
2025-08-09 09:25:46
OpenAI:正在让 GPT-5 变得“更温暖、更友好、不奉承”
2025-08-16 12:24:21
OpenAI GPT-5 编程成绩有猫腻:自删 23 道测试题,关键基准还是自己提的
2025-08-12 13:18:21
奥特曼预期管理失败,GPT-5让人失望了?
2025-08-09 18:36:01
GPT-5刚出,人们为什么又怀念GPT-4o
2025-08-11 08:57:55
GPT-5测试被质疑作弊,故意避开难题刷高分?
2025-08-12 12:18:06
奥尔特曼答网友问:GPT-5 为何“降智”、是否保留 GPT-4o、发布会图表出错……
2025-08-09 08:25:28
“还我GPT-4o”!奥特曼强推GPT-5惹怒网友,紧急公关来了
2025-08-09 17:33:33
512 文章
245464 浏览
24小时热文
更多

-
2025-10-23 18:14:34
-
2025-10-23 18:13:26
-
2025-10-23 18:12:20