编程模型测评 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

GPT-5 编程测评“表面不及格”：实际 63.1% 的任务没交卷，全算上成绩比 Claude 高一倍

2025年9月，Scale AI发布新基准SWE-BENCH PRO，测试显示顶级AI模型编程能力普遍‘不及格’。GPT-5、Claude Opus 4.1和Gemini 2.5解决率分别为23.3%、22.7%和13.5%，但深入分析发现，GPT-5在已提交任务中准确率达63%，远超Claude的31%。新基准严格避免数据污染，涵盖1865个商业代码库问题，强调复杂多文件修改，对比旧版难度显著提升。研究指出，Go和Python任务表现较好，而JavaScript波动大；失败原因因模型而异，如Claude语义理解不足，GPT-5工具使用需优化。整体来看，当前AI模型在真实商业场景中的编程能力仍有限，突破30%解决率成新目标。

原文链接