2025年9月,Scale AI发布新基准SWE-BENCH PRO,显示GPT-5、Claude Opus 4.1和Gemini 2.5等顶级模型编程任务解决率均未超25%。然而,深入分析发现,GPT-5在已提交任务中准确率达63%,远高于Claude的31%。新测试集严格规避数据污染问题,包含多元化代码库与复杂任务,强调真实工业场景挑战。尽管如此,即使是表现最佳的GPT-5,在商业场景中的解决率也低于20%。研究人员指出,编程语言难度、代码库特性及模型种类显著影响结果,而各模型失败原因各异,如语义理解不足或上下文管理局限。未来谁能突破30%解决率仍是未知数。
原文链接
本文链接:https://kx.umi6.com/article/25793.html
转载请注明文章出处
相关推荐
换一换
GPT-5来了,Kimi却掉队了
2025-08-12 15:22:00
OpenAI ChatGPT 更新:GPT-5 引入三种模式,4o 模型回归
2025-08-13 10:31:24
OpenAI今年预计通过ChatGPT实现近100亿美元收入,机构称GPT-5将给硬件和应用端这些企业带来机遇
2025-09-06 16:37:17
苹果发布 Xcode 26 Beta 7:新增 GPT-5 支持并集成 Claude
2025-08-29 07:32:56
GPT-5通关《宝可梦水晶》创纪录!9517步击败赤爷,效率碾压o3三倍!
2025-08-26 17:48:25
GPT-5测试被质疑作弊,故意避开难题刷高分?
2025-08-12 12:18:06
GPT-5 编程测评“表面不及格”:实际 63.1% 的任务没交卷,全算上成绩比 Claude 高一倍
2025-09-23 00:06:04
OpenAI 研究人员夸大 GPT-5 数学能力后删帖,遭杨立昆等业界人士批评
2025-10-19 08:45:17
OpenAI首份大模型“心理报告”出炉:每周有百万人询问敏感问题
2025-10-28 10:47:35
奥特曼预期管理失败,GPT-5让人失望了?
2025-08-09 18:36:01
GPT-5 没有惊喜,但信号拉满
2025-08-11 13:00:45
实测GPT-5:写作坠入谷底,编程一骑绝尘
2025-08-08 09:11:19
OpenAI 宣布 ChatGPT-4o 面向 Plus 和 Team 用户重新上线,下周推出迷你版 GPT-5
2025-08-09 16:33:15
615 文章
354797 浏览
24小时热文
更多
-
2025-12-08 19:43:05 -
2025-12-08 18:41:52 -
2025-12-08 18:40:45