2025年9月,Scale AI发布新基准SWE-BENCH PRO,用于评估大语言模型的编程能力。结果显示,GPT-5、Claude Opus 4.1和Gemini 2.5分别以23.3%、22.7%和13.5%的解决率位列前三,但整体表现远低于此前SWE-Bench-Verified的70%平均正确率。研究人员指出,SWE-BENCH PRO通过全新题目避免数据污染,任务复杂度更高,涵盖1865个多元化代码库。深入分析表明,GPT-5在已提交任务中准确率达63%,显著优于其他模型,但未回答率高达63.1%。此外,各模型失败原因各异,如Claude Opus 4.1语义理解不足,GPT-5工具使用存疑,Gemini 2.5多维度能力均衡但无突出优势。研究认为,当前模型在真实商业场景中的问题解决能力仍有限,突破30%解决率成为下一步目标。
原文链接
本文链接:https://kx.umi6.com/article/25697.html
转载请注明文章出处
相关推荐
换一换
OpenAI首个GPT-5找Bug智能体:全自动读代码找漏洞写修复
2025-10-31 13:33:18
可调节思考时长,ChatGPT 网页端新增 GPT-5 Thinking 调整功能
2025-09-18 10:48:18
GPT-5为量子计算提供关键思路!大牛盛赞:不到半小时给出“灵魂一击”
2025-09-29 13:08:15
GPT-5又帮陶哲轩解决了一个难题
2025-09-03 15:46:53
我们都错怪GPT-5了,路由统一算力,免费用户也能创造收益
2025-08-14 15:57:37
GPT-5攻入数学圈,证明定理快过博士生?网友热议AI新角色
2025-09-19 20:18:56
GPT-5为什么没有带来更多惊喜?
2025-08-10 14:47:11
OpenAI两位首席最新采访信息量好大
2025-09-28 19:59:09
OpenAI ChatGPT 更新:GPT-5 引入三种模式,4o 模型回归
2025-08-13 10:31:24
应对 GPT-5 需求增长,OpenAI CEO 奥尔特曼公布算力分配计划
2025-08-12 10:15:48
深聊GPT-5发布:过度营销的反噬与AI技术困局
2025-08-12 12:16:52
GPT-5 编程测评“表面不及格”:实际 63.1% 的任务没交卷,全算上成绩比 Claude 高一倍
2025-09-23 00:06:04
GPT-5不是技术新范式,是OpenAI加速产品化的战略拐点
2025-08-13 08:37:09
787 文章
715246 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41