编程测评 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

GPT-5编程测评大反转！表面不及格，实际63.1%的任务没交卷，全算上成绩比Claude高一倍

2025年9月，Scale AI发布新基准SWE-BENCH PRO，显示GPT-5、Claude Opus 4.1和Gemini 2.5等顶级模型编程任务解决率均未超25%。然而，深入分析发现，GPT-5在已提交任务中准确率达63%，远高于Claude的31%。新测试集严格规避数据污染问题，包含多元化代码库与复杂任务，强调真实工业场景挑战。尽管如此，即使是表现最佳的GPT-5，在商业场景中的解决率也低于20%。研究人员指出，编程语言难度、代码库特性及模型种类显著影响结果，而各模型失败原因各异，如语义理解不足或上下文管理局限。未来谁能突破30%解决率仍是未知数。

原文链接