1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

2025年9月,Scale AI发布新基准SWE-BENCH PRO,测试显示顶级AI模型编程能力普遍‘不及格’。GPT-5、Claude Opus 4.1和Gemini 2.5解决率分别为23.3%、22.7%和13.5%,但深入分析发现,GPT-5在已提交任务中准确率达63%,远超Claude的31%。新基准严格避免数据污染,涵盖1865个商业代码库问题,强调复杂多文件修改,对比旧版难度显著提升。研究指出,Go和Python任务表现较好,而JavaScript波动大;失败原因因模型而异,如Claude语义理解不足,GPT-5工具使用需优化。整体来看,当前AI模型在真实商业场景中的编程能力仍有限,突破30%解决率成新目标。

原文链接
本文链接:https://kx.umi6.com/article/25666.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
应对 GPT-5 需求增长,OpenAI CEO 奥尔特曼公布算力分配计划
2025-08-12 10:15:48
深聊GPT-5发布:过度营销的反噬与AI技术困局
2025-08-13 17:39:40
杜绝幻觉、拒绝谄媚,GPT-5的「路由革命」
2025-08-11 16:06:06
GPT-5“变笨”,实锤了?
2025-09-01 17:22:41
GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍
2025-09-24 17:45:44
重新体验GPT-5后,我想它比GPT-4o 更需要一场葬礼
2025-08-11 19:06:36
GPT-5之后,奥特曼向左,梁文锋向右
2025-08-15 17:17:56
GPT-5“变笨”实锤,退休教授出了道井字棋送分题,结果它真送了
2025-09-01 16:18:53
因为GPT-5,这群人决定在Reddit上起义
2025-08-11 11:01:24
奥特曼:我承认GPT-5发布搞砸了
2025-08-19 17:02:17
可调节思考时长,ChatGPT 网页端新增 GPT-5 Thinking 调整功能
2025-09-18 10:48:18
奥尔特曼最新发声:OpenAI乐于选择亏损 不关心马斯克
2025-08-09 01:22:32
OpenAI首个GPT-5找Bug智能体:全自动读代码找漏洞写修复
2025-10-31 13:33:18
24小时热文
更多
扫一扫体验小程序