2025年9月,Scale AI发布新基准SWE-BENCH PRO,显示GPT-5、Claude Opus 4.1和Gemini 2.5等顶级模型编程任务解决率均未超25%。然而,深入分析发现,GPT-5在已提交任务中准确率达63%,远高于Claude的31%。新测试集严格规避数据污染问题,包含多元化代码库与复杂任务,强调真实工业场景挑战。尽管如此,即使是表现最佳的GPT-5,在商业场景中的解决率也低于20%。研究人员指出,编程语言难度、代码库特性及模型种类显著影响结果,而各模型失败原因各异,如语义理解不足或上下文管理局限。未来谁能突破30%解决率仍是未知数。
原文链接
本文链接:https://kx.umi6.com/article/25793.html
转载请注明文章出处
相关推荐
换一换
OpenAI ChatGPT 更新:GPT-5 引入三种模式,4o 模型回归
2025-08-13 10:31:24
GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道
2025-10-20 16:09:01
奥特曼神秘晚宴讲话曝出!OpenAI的CEO或将是个AI,Chrome我也想买
2025-08-17 15:36:36
GPT-5来了,Kimi却掉队了
2025-08-12 15:22:00
GPT-5 没有惊喜,但信号拉满
2025-08-11 13:00:45
GPT-5 AI 模型全面登陆微软生态系统:更聪明、更连贯、更懂你
2025-08-08 09:07:40
OpenAI推出GPT-5模型 机构称AI应用落地与政策支持共振加速
2025-08-08 08:12:16
OpenAI 奥尔特曼:GPT-5 有点搞砸了,未来公司 CEO 或是 AI
2025-08-17 16:39:08
GPT-5来了
2025-08-08 08:09:56
OpenAI 研究人员夸大 GPT-5 数学能力后删帖,遭杨立昆等业界人士批评
2025-10-19 08:45:17
GPT-5发威,逼得马斯克 「放大招」?
2025-08-12 11:17:40
奥特曼:我承认GPT-5发布搞砸了
2025-08-19 17:02:17
OpenAI最新测试:GPT-5与Claude在部分工作中可媲美人类专家
2025-09-26 04:16:50
722 文章
564026 浏览
24小时热文
更多
-
2026-04-25 00:42:43 -
2026-04-24 23:43:31 -
2026-04-24 23:42:26