1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

2025年9月,Scale AI发布新基准SWE-BENCH PRO,显示GPT-5、Claude Opus 4.1和Gemini 2.5等顶级模型编程任务解决率均未超25%。然而,深入分析发现,GPT-5在已提交任务中准确率达63%,远高于Claude的31%。新测试集严格规避数据污染问题,包含多元化代码库与复杂任务,强调真实工业场景挑战。尽管如此,即使是表现最佳的GPT-5,在商业场景中的解决率也低于20%。研究人员指出,编程语言难度、代码库特性及模型种类显著影响结果,而各模型失败原因各异,如语义理解不足或上下文管理局限。未来谁能突破30%解决率仍是未知数。

原文链接
本文链接:https://kx.umi6.com/article/25793.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI GPT-5 编程成绩有猫腻:自删 23 道测试题,关键基准还是自己提的
2025-08-12 13:18:21
GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍
2025-09-24 17:45:44
狼真的要来了!GPT-5准备抢走打工人的饭碗
2025-08-08 16:15:53
GPT-5 AI 模型全面登陆微软生态系统:更聪明、更连贯、更懂你
2025-08-08 09:07:40
奥尔特曼:感受不到 GPT-5 变强,是因为你还不够「专业」
2025-10-05 20:24:55
OpenAI高管自爆:Scaling不死,GPT-5「双轴训练」撕开智能天花板
2025-08-21 15:33:31
OpenAI推出GPT-5模型 机构称AI应用落地与政策支持共振加速
2025-08-08 08:12:16
GPT-5刚出,人们为什么又怀念GPT-4o
2025-08-11 08:57:55
实测GPT-5:写作坠入谷底,编程一骑绝尘
2025-08-08 09:11:19
陶哲轩用GPT-5解决数学难题:仅29行Python代码
2025-10-04 12:59:43
GPT-5测试被质疑作弊,故意避开难题刷高分?
2025-08-12 12:18:06
重新体验GPT-5后,我想它比GPT-4o 更需要一场葬礼
2025-08-11 19:06:36
奥特曼神秘晚宴讲话曝出!OpenAI的CEO或将是个AI,Chrome我也想买
2025-08-17 15:36:36
24小时热文
更多
扫一扫体验小程序