GPT-5测试被质疑作弊，故意避开难题刷高分？

2025-08-12 12:18:06

数字墨迹

发布在

快讯

阅读：3794

2025年8月12日，OpenAI因GPT-5在SWE-bench Verified测试中被质疑作弊引发争议。测试显示GPT-5得分74.9%，略高于Claude Opus 4.1的74.5%，但GPT-5仅完成477道题，少做23道难题，理由是‘基础设施无法运行’。分析机构SemiAnalysis指出，若将未答题算零分，GPT-5成绩会下降。此外，OpenAI推出的SWE-bench Verified测试集经过筛选，剔除了高难度题目，被批评为‘既是裁判又是选手’。而在更原汁原味的swebench.com榜单上，Claude 4 Opus反而领先。同日，OpenAI内部模型在IOI 2025竞赛中取得AI组第一，但该版本与公开版性能有差距。争议背后，AI竞赛中的微小差异成为营销焦点，但用户更关注价格优势，GPT-5价格仅为竞品的十分之一。

原文链接

本文链接：https://kx.umi6.com/article/23418.html

转载请注明文章出处

GPT-5