2025年9月,Scale AI发布新基准SWE-BENCH PRO,测试显示顶级AI模型编程能力普遍‘不及格’。GPT-5、Claude Opus 4.1和Gemini 2.5解决率分别为23.3%、22.7%和13.5%,但深入分析发现,GPT-5在已提交任务中准确率达63%,远超Claude的31%。新基准严格避免数据污染,涵盖1865个商业代码库问题,强调复杂多文件修改,对比旧版难度显著提升。研究指出,Go和Python任务表现较好,而JavaScript波动大;失败原因因模型而异,如Claude语义理解不足,GPT-5工具使用需优化。整体来看,当前AI模型在真实商业场景中的编程能力仍有限,突破30%解决率成新目标。
原文链接
本文链接:https://kx.umi6.com/article/25666.html
转载请注明文章出处
相关推荐
换一换
GPT-5 没有惊喜,但信号拉满
2025-08-11 13:00:45
GPT-5来了,人人免费可用
2025-08-08 08:08:39
OpenAI首个GPT-5找Bug智能体:全自动读代码找漏洞写修复
2025-10-31 13:33:18
GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道
2025-10-20 16:09:01
我们都错怪GPT-5了,路由统一算力,免费用户也能创造收益
2025-08-14 15:57:37
英国心理学家警告:GPT-5 会向精神疾病患者提供危险建议
2025-12-01 18:26:06
杜绝幻觉、拒绝谄媚,GPT-5的「路由革命」
2025-08-11 16:06:06
OpenAI 宣布 ChatGPT-4o 面向 Plus 和 Team 用户重新上线,下周推出迷你版 GPT-5
2025-08-09 16:33:15
GPT-5来了,Kimi却掉队了
2025-08-12 15:22:00
GPT-5刚出,人们为什么又怀念GPT-4o
2025-08-11 08:57:55
OpenAI大溃败!GPT-5「换皮」GPT-4o,两年半预训练0突破
2025-12-02 01:39:51
深聊GPT-5发布:过度营销的反噬与AI技术困局
2025-08-13 17:39:40
GPT-5通关《宝可梦水晶》创纪录!9517步击败赤爷,效率碾压o3三倍!
2025-08-26 17:48:25
729 文章
536315 浏览
24小时热文
更多
-
2026-03-10 11:08:54 -
2026-03-10 11:08:19 -
2026-03-10 11:07:44