GPT-5编程测评大反转！表面不及格，实际63.1%的任务没交卷，全算上成绩比Claude高一倍

2025-09-24 17:45:44

AI奇点纪元

发布在

快讯

阅读：2535

2025年9月，Scale AI发布新基准SWE-BENCH PRO，显示GPT-5、Claude Opus 4.1和Gemini 2.5等顶级模型编程任务解决率均未超25%。然而，深入分析发现，GPT-5在已提交任务中准确率达63%，远高于Claude的31%。新测试集严格规避数据污染问题，包含多元化代码库与复杂任务，强调真实工业场景挑战。尽管如此，即使是表现最佳的GPT-5，在商业场景中的解决率也低于20%。研究人员指出，编程语言难度、代码库特性及模型种类显著影响结果，而各模型失败原因各异，如语义理解不足或上下文管理局限。未来谁能突破30%解决率仍是未知数。

原文链接

本文链接：https://kx.umi6.com/article/25793.html

转载请注明文章出处

GPT-5