2025年9月,Scale AI发布新基准SWE-BENCH PRO,用于评估大语言模型的编程能力。结果显示,GPT-5、Claude Opus 4.1和Gemini 2.5分别以23.3%、22.7%和13.5%的解决率位列前三,但整体表现远低于此前SWE-Bench-Verified的70%平均正确率。研究人员指出,SWE-BENCH PRO通过全新题目避免数据污染,任务复杂度更高,涵盖1865个多元化代码库。深入分析表明,GPT-5在已提交任务中准确率达63%,显著优于其他模型,但未回答率高达63.1%。此外,各模型失败原因各异,如Claude Opus 4.1语义理解不足,GPT-5工具使用存疑,Gemini 2.5多维度能力均衡但无突出优势。研究认为,当前模型在真实商业场景中的问题解决能力仍有限,突破30%解决率成为下一步目标。
原文链接
本文链接:https://kx.umi6.com/article/25697.html
转载请注明文章出处
相关推荐
换一换
苹果发布 Xcode 26 Beta 7:新增 GPT-5 支持并集成 Claude
2025-08-29 07:32:56
GPT-5“让人失望”,AI“撞墙”了吗?
2025-08-17 19:40:29
AI 偏见降低 30%:OpenAI 宣布 GPT-5 是其最中立模型
2025-10-11 10:07:23
GPT-5与Claude在部分工作中可媲美人类专家
2025-09-26 08:21:08
GPT-5“变笨”实锤,退休教授出了道井字棋送分题,结果它真送了
2025-09-01 16:18:53
微软 Visual Studio 上线 GPT-5,复杂任务推理决策能力“大幅”提升
2025-08-13 08:31:33
GPT-5刚出,人们为什么又怀念GPT-4o
2025-08-11 08:57:55
实测GPT-5:写作坠入谷底,编程一骑绝尘
2025-08-08 09:11:19
“还我GPT-4o”!奥特曼强推GPT-5惹怒网友,紧急公关来了
2025-08-09 17:33:33
OpenAI 今年推出 GPT - 6?员工否认
2025-10-19 07:43:54
OpenAI推出GPT-5模型 机构称AI应用落地与政策支持共振加速
2025-08-08 08:12:16
GPT-5不及预期,但给OpenAI喂数据的公司却身价暴涨
2025-08-10 16:48:05
我们都错怪GPT-5了,路由统一算力,免费用户也能创造收益
2025-08-14 15:57:37
647 文章
394751 浏览
24小时热文
更多
-
2025-12-08 19:43:05 -
2025-12-08 18:41:52 -
2025-12-08 18:40:45