2025年9月,Scale AI发布新基准SWE-BENCH PRO,用于评估大语言模型的编程能力。结果显示,GPT-5、Claude Opus 4.1和Gemini 2.5分别以23.3%、22.7%和13.5%的解决率位列前三,但整体表现远低于此前SWE-Bench-Verified的70%平均正确率。研究人员指出,SWE-BENCH PRO通过全新题目避免数据污染,任务复杂度更高,涵盖1865个多元化代码库。深入分析表明,GPT-5在已提交任务中准确率达63%,显著优于其他模型,但未回答率高达63.1%。此外,各模型失败原因各异,如Claude Opus 4.1语义理解不足,GPT-5工具使用存疑,Gemini 2.5多维度能力均衡但无突出优势。研究认为,当前模型在真实商业场景中的问题解决能力仍有限,突破30%解决率成为下一步目标。
原文链接
本文链接:https://kx.umi6.com/article/25697.html
转载请注明文章出处
相关推荐
换一换
OpenAI推出GPT-5模型 机构称AI应用落地与政策支持共振加速
2025-08-08 08:12:16
GPT-5为什么没有带来更多惊喜?
2025-08-10 14:47:11
GPT-5与Claude在部分工作中可媲美人类专家
2025-09-26 08:21:08
重新体验GPT-5后,我想它比GPT-4o 更需要一场葬礼
2025-08-11 19:06:36
OpenAI两位首席最新采访信息量好大
2025-09-28 19:59:09
实测GPT-5:写作坠入谷底,编程一骑绝尘
2025-08-08 09:11:19
颤抖吧,Bug!OpenAI放出GPT-5「夜行神兽」,命中92%漏洞
2025-11-01 23:52:24
OpenAI首份大模型“心理报告”出炉:每周有百万人询问敏感问题
2025-10-28 10:47:35
OpenAI旧版回归,年度最失望AI 留下了什么
2025-08-13 15:41:58
OpenAI的GPT-5会否开启人工智能界的价格大战?
2025-08-11 16:09:01
GPT-5 没有惊喜,但信号拉满
2025-08-11 13:00:45
GPT-5差评启示录:用户与AI交互方式还停留在上一个时代
2025-08-22 13:46:04
杜绝幻觉、拒绝谄媚,GPT-5的「路由革命」
2025-08-11 16:06:06
729 文章
536777 浏览
24小时热文
更多
-
2026-03-10 13:19:24 -
2026-03-10 13:18:55 -
2026-03-10 12:13:43