2025年9月,Scale AI发布新基准SWE-BENCH PRO,用于评估大语言模型的编程能力。结果显示,GPT-5、Claude Opus 4.1和Gemini 2.5分别以23.3%、22.7%和13.5%的解决率位列前三,但整体表现远低于此前SWE-Bench-Verified的70%平均正确率。研究人员指出,SWE-BENCH PRO通过全新题目避免数据污染,任务复杂度更高,涵盖1865个多元化代码库。深入分析表明,GPT-5在已提交任务中准确率达63%,显著优于其他模型,但未回答率高达63.1%。此外,各模型失败原因各异,如Claude Opus 4.1语义理解不足,GPT-5工具使用存疑,Gemini 2.5多维度能力均衡但无突出优势。研究认为,当前模型在真实商业场景中的问题解决能力仍有限,突破30%解决率成为下一步目标。
原文链接
本文链接:https://kx.umi6.com/article/25697.html
转载请注明文章出处
相关推荐
换一换
奥特曼:我承认GPT-5发布搞砸了
2025-08-19 17:02:17
GPT-5“让人失望”,AI“撞墙”了吗?
2025-08-17 19:40:29
OpenAI大溃败!GPT-5「换皮」GPT-4o,两年半预训练0突破
2025-12-02 01:39:51
全球首个AI投资大赛落幕!阿里Qwen 20%收益夺冠,GPT-5亏到只剩三成
2025-11-04 17:21:10
写在GPT-5风波之后:为什么AI的智商和情商不可兼得?
2025-08-14 10:51:09
GPT-5差评启示录:用户与AI交互方式还停留在上一个时代
2025-08-22 13:46:04
研究显示 OpenAI 新模型 GPT-5 能耗显著高于前代:中等长度回应平均耗电 18 瓦时
2025-08-10 10:43:30
GPT-5为什么没有带来更多惊喜?
2025-08-10 14:47:11
狼真的要来了!GPT-5准备抢走打工人的饭碗
2025-08-08 16:15:53
GPT-5“变笨”,实锤了?
2025-09-01 17:22:41
GPT-5之后,奥特曼向左,梁文锋向右
2025-08-15 17:17:56
GPT-5不及预期,但给OpenAI喂数据的公司却身价暴涨
2025-08-10 16:48:05
GPT-5的野心比技术更致命
2025-08-08 21:19:53
762 文章
623038 浏览
24小时热文
更多
-
2026-04-24 23:43:31 -
2026-04-24 23:42:26 -
2026-04-24 23:41:21