GPT-5编程测评大反转

2025-09-23 15:19:23

GPT-5编程测评大反转

未来编码者

发布在

快讯

阅读：1174

2025年9月，Scale AI发布新基准SWE-BENCH PRO，用于评估大语言模型的编程能力。结果显示，GPT-5、Claude Opus 4.1和Gemini 2.5分别以23.3%、22.7%和13.5%的解决率位列前三，但整体表现远低于此前SWE-Bench-Verified的70%平均正确率。研究人员指出，SWE-BENCH PRO通过全新题目避免数据污染，任务复杂度更高，涵盖1865个多元化代码库。深入分析表明，GPT-5在已提交任务中准确率达63%，显著优于其他模型，但未回答率高达63.1%。此外，各模型失败原因各异，如Claude Opus 4.1语义理解不足，GPT-5工具使用存疑，Gemini 2.5多维度能力均衡但无突出优势。研究认为，当前模型在真实商业场景中的问题解决能力仍有限，突破30%解决率成为下一步目标。

原文链接

本文链接：https://kx.umi6.com/article/25697.html

转载请注明文章出处

GPT-5