
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年9月,Scale AI发布新基准SWE-BENCH PRO,显示GPT-5、Claude Opus 4.1和Gemini 2.5等顶级模型编程任务解决率均未超25%。然而,深入分析发现,GPT-5在已提交任务中准确率达63%,远高于Claude的31%。新测试集严格规避数据污染问题,包含多元化代码库与复杂任务,强调真实工业场景挑战。尽管如此,即使是表现最佳的GPT-5,在商业场景中的解决率也低于20%。研究人员指出,编程语言难度、代码库特性及模型种类显著影响结果,而各模型失败原因各异,如语义理解不足或上下文管理局限。未来谁能突破30%解决率仍是未知数。
原文链接
加载更多

暂无内容