1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

2025年9月,Scale AI发布新基准SWE-BENCH PRO,测试显示顶级AI模型编程能力普遍‘不及格’。GPT-5、Claude Opus 4.1和Gemini 2.5解决率分别为23.3%、22.7%和13.5%,但深入分析发现,GPT-5在已提交任务中准确率达63%,远超Claude的31%。新基准严格避免数据污染,涵盖1865个商业代码库问题,强调复杂多文件修改,对比旧版难度显著提升。研究指出,Go和Python任务表现较好,而JavaScript波动大;失败原因因模型而异,如Claude语义理解不足,GPT-5工具使用需优化。整体来看,当前AI模型在真实商业场景中的编程能力仍有限,突破30%解决率成新目标。

原文链接
本文链接:https://kx.umi6.com/article/25666.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
GPT-5又帮陶哲轩解决了一个难题
2025-09-03 15:46:53
全球首个AI投资大赛落幕!阿里Qwen 20%收益夺冠,GPT-5亏到只剩三成
2025-11-04 17:21:10
OpenAI 宣布 ChatGPT-4o 面向 Plus 和 Team 用户重新上线,下周推出迷你版 GPT-5
2025-08-09 16:33:15
GPT-5来了,Kimi却掉队了
2025-08-12 15:22:00
OpenAI两位首席最新采访信息量好大
2025-09-28 19:59:09
GPT-5深夜炸场!微软抢先集成 机构看好AI编程加速发展
2025-08-08 10:09:45
GPT-5测试被质疑作弊,故意避开难题刷高分?
2025-08-12 12:18:06
GPT-5的拙劣发布,戳破了AI取代公关的谎言
2025-08-12 19:23:40
首个接入GPT-5的视频Agent!一句话生成广告大片,分镜配音全包了
2025-08-26 16:47:05
研究显示 OpenAI 新模型 GPT-5 能耗显著高于前代:中等长度回应平均耗电 18 瓦时
2025-08-10 10:43:30
GPT-5刚出,人们为什么又怀念GPT-4o
2025-08-11 08:57:55
GPT-5发布了,到底有没有那么神?
2025-08-08 09:10:02
GPT-5发布,槽点竟多过亮点
2025-08-08 09:12:32
24小时热文
更多
扫一扫体验小程序