1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

2025年9月,Scale AI发布新基准SWE-BENCH PRO,显示GPT-5、Claude Opus 4.1和Gemini 2.5等顶级模型编程任务解决率均未超25%。然而,深入分析发现,GPT-5在已提交任务中准确率达63%,远高于Claude的31%。新测试集严格规避数据污染问题,包含多元化代码库与复杂任务,强调真实工业场景挑战。尽管如此,即使是表现最佳的GPT-5,在商业场景中的解决率也低于20%。研究人员指出,编程语言难度、代码库特性及模型种类显著影响结果,而各模型失败原因各异,如语义理解不足或上下文管理局限。未来谁能突破30%解决率仍是未知数。

原文链接
本文链接:https://kx.umi6.com/article/25793.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
快来看看GPT-5第一波实测
2025-08-08 19:17:41
“苹果牌 AI”拥抱 GPT-5,预计下月登陆 iOS / iPadOS / macOS 26
2025-08-09 09:25:46
OpenAI 迄今最智能 AI 模型:“六边形战士”GPT-5 登场,准确性、速度、推理能力等全面突破
2025-08-08 01:59:39
GPT-5 AI 模型全面登陆微软生态系统:更聪明、更连贯、更懂你
2025-08-08 09:07:40
GPT-5“变笨”,实锤了?
2025-09-01 17:22:41
GPT-5差评启示录:用户与AI交互方式还停留在上一个时代
2025-08-22 13:46:04
ChatGPT 为何退回了 4o ?
2025-08-10 15:48:45
OpenAI ChatGPT 更新:GPT-5 引入三种模式,4o 模型回归
2025-08-13 10:31:24
微软 Copilot(Win10/11)支持 GPT - 5 智能模式,限制比 ChatGPT 更宽松
2025-08-11 07:57:19
重新体验GPT-5后,我想它比GPT-4o 更需要一场葬礼
2025-08-11 19:06:36
狼真的要来了!GPT-5准备抢走打工人的饭碗
2025-08-08 16:15:53
苹果发布 Xcode 26 Beta 7:新增 GPT-5 支持并集成 Claude
2025-08-29 07:32:56
OpenAI:ChatGPT 本周有望达 7 亿周活跃用户,比去年增长 4 倍多
2025-08-05 08:11:17
24小时热文
更多
扫一扫体验小程序