2025年9月,Scale AI发布新基准SWE-BENCH PRO,测试显示顶级AI模型编程能力普遍‘不及格’。GPT-5、Claude Opus 4.1和Gemini 2.5解决率分别为23.3%、22.7%和13.5%,但深入分析发现,GPT-5在已提交任务中准确率达63%,远超Claude的31%。新基准严格避免数据污染,涵盖1865个商业代码库问题,强调复杂多文件修改,对比旧版难度显著提升。研究指出,Go和Python任务表现较好,而JavaScript波动大;失败原因因模型而异,如Claude语义理解不足,GPT-5工具使用需优化。整体来看,当前AI模型在真实商业场景中的编程能力仍有限,突破30%解决率成新目标。
原文链接
本文链接:https://kx.umi6.com/article/25666.html
转载请注明文章出处
相关推荐
换一换
我们都错怪GPT-5了,路由统一算力,免费用户也能创造收益
2025-08-14 15:57:37
GPT-5不及预期,但给OpenAI喂数据的公司却身价暴涨
2025-08-10 16:48:05
可调节思考时长,ChatGPT 网页端新增 GPT-5 Thinking 调整功能
2025-09-18 10:48:18
GPT-5刚出,人们为什么又怀念GPT-4o
2025-08-11 08:57:55
已切换至 GPT-5:OpenAI ChatGPT AI 聊天机器人告别 4o / 4.5/4.1 等混乱模型
2025-08-08 08:07:20
研究称 GPT-5“有害回答”比 GPT-4o 更多,不回避“自杀”相关话题
2025-10-17 12:15:56
GPT-5又帮陶哲轩解决了一个难题
2025-09-03 15:46:53
GPT-5发威,逼得马斯克 「放大招」?
2025-08-12 11:17:40
GPT-5测试被质疑作弊,故意避开难题刷高分?
2025-08-12 12:18:06
GPT-5为什么没有带来更多惊喜?
2025-08-10 14:47:11
“还我GPT-4o”!奥特曼强推GPT-5惹怒网友,紧急公关来了
2025-08-09 17:33:33
OpenAI旧版回归,年度最失望AI 留下了什么
2025-08-13 15:41:58
GPT-5来了,人人免费可用
2025-08-08 08:08:39
762 文章
623273 浏览
24小时热文
更多
-
2026-04-25 00:42:43 -
2026-04-24 23:43:31 -
2026-04-24 23:42:26