2025年9月,Scale AI发布新基准SWE-BENCH PRO,测试显示顶级AI模型编程能力普遍‘不及格’。GPT-5、Claude Opus 4.1和Gemini 2.5解决率分别为23.3%、22.7%和13.5%,但深入分析发现,GPT-5在已提交任务中准确率达63%,远超Claude的31%。新基准严格避免数据污染,涵盖1865个商业代码库问题,强调复杂多文件修改,对比旧版难度显著提升。研究指出,Go和Python任务表现较好,而JavaScript波动大;失败原因因模型而异,如Claude语义理解不足,GPT-5工具使用需优化。整体来看,当前AI模型在真实商业场景中的编程能力仍有限,突破30%解决率成新目标。
原文链接
本文链接:https://kx.umi6.com/article/25666.html
转载请注明文章出处
相关推荐
换一换
英国心理学家警告:GPT-5 会向精神疾病患者提供危险建议
2025-12-01 18:26:06
OpenAI:GPT-5 模型正开始减轻科学家日常工作量
2025-11-22 00:51:13
GPT-5发布了,到底有没有那么神?
2025-08-08 09:10:02
GPT-5刚出,人们为什么又怀念GPT-4o
2025-08-11 08:57:55
GPT-5的拙劣发布,戳破了AI取代公关的谎言
2025-08-12 19:23:40
杜绝幻觉、拒绝谄媚,GPT-5的「路由革命」
2025-08-11 16:06:06
商汤开源 SenseNova-SI 模型:能理解空间结构,号称多项评测领先 GPT-5
2025-11-11 00:37:55
GPT-5“变笨”,实锤了?
2025-09-01 17:22:41
GPT-5来了,Kimi却掉队了
2025-08-12 15:22:00
OpenAI总裁透露GPT-5改了推理范式,AGI实现要靠现实反馈
2025-08-18 17:48:45
GPT-5为量子计算提供关键思路!大牛盛赞:不到半小时给出“灵魂一击”
2025-09-29 13:08:15
苹果发布 Xcode 26 Beta 7:新增 GPT-5 支持并集成 Claude
2025-08-29 07:32:56
中信建投:GPT-5发布与华为CANN开源有望带动AI应用发展
2025-08-11 09:00:14
686 文章
467088 浏览
24小时热文
更多
-
2026-01-23 10:51:27 -
2026-01-23 10:50:21 -
2026-01-23 10:49:16