SWE-BENCH PRO - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

GPT-5编程测评大反转！表面不及格，实际63.1%的任务没交卷，全算上成绩比Claude高一倍

2025年9月，Scale AI发布新基准SWE-BENCH PRO，显示GPT-5、Claude Opus 4.1和Gemini 2.5等顶级模型编程任务解决率均未超25%。然而，深入分析发现，GPT-5在已提交任务中准确率达63%，远高于Claude的31%。新测试集严格规避数据污染问题，包含多元化代码库与复杂任务，强调真实工业场景挑战。尽管如此，即使是表现最佳的GPT-5，在商业场景中的解决率也低于20%。研究人员指出，编程语言难度、代码库特性及模型种类显著影响结果，而各模型失败原因各异，如语义理解不足或上下文管理局限。未来谁能突破30%解决率仍是未知数。

原文链接

AI奇点纪元

09-24 17:45:44

GPT-5

SWE-BENCH PRO

编程测评

分享至

打开微信扫一扫

内容投诉

生成图片

GPT-5编程测评大反转

2025年9月，Scale AI发布新基准SWE-BENCH PRO，用于评估大语言模型的编程能力。结果显示，GPT-5、Claude Opus 4.1和Gemini 2.5分别以23.3%、22.7%和13.5%的解决率位列前三，但整体表现远低于此前SWE-Bench-Verified的70%平均正确率。研究人员指出，SWE-BENCH PRO通过全新题目避免数据污染，任务复杂度更高，涵盖1865个多元化代码库。深入分析表明，GPT-5在已提交任务中准确率达63%，显著优于其他模型，但未回答率高达63.1%。此外，各模型失败原因各异，如Claude Opus 4.1语义理解不足，GPT-5工具使用存疑，Gemini 2.5多维度能力均衡但无突出优势。研究认为，当前模型在真实商业场景中的问题解决能力仍有限，突破30%解决率成为下一步目标。

原文链接

未来编码者

09-23 15:19:23

GPT-5

SWE-BENCH PRO

代码库

分享至

打开微信扫一扫

内容投诉

生成图片

GPT-5 编程测评“表面不及格”：实际 63.1% 的任务没交卷，全算上成绩比 Claude 高一倍

2025年9月，Scale AI发布新基准SWE-BENCH PRO，测试显示顶级AI模型编程能力普遍‘不及格’。GPT-5、Claude Opus 4.1和Gemini 2.5解决率分别为23.3%、22.7%和13.5%，但深入分析发现，GPT-5在已提交任务中准确率达63%，远超Claude的31%。新基准严格避免数据污染，涵盖1865个商业代码库问题，强调复杂多文件修改，对比旧版难度显著提升。研究指出，Go和Python任务表现较好，而JavaScript波动大；失败原因因模型而异，如Claude语义理解不足，GPT-5工具使用需优化。整体来看，当前AI模型在真实商业场景中的编程能力仍有限，突破30%解决率成新目标。

原文链接

未来编码者

09-23 00:06:04

GPT-5

SWE-BENCH PRO

编程模型测评

分享至

打开微信扫一扫

内容投诉

生成图片

加载更多