1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

2025年9月,Scale AI发布新基准SWE-BENCH PRO,测试显示顶级AI模型编程能力普遍‘不及格’。GPT-5、Claude Opus 4.1和Gemini 2.5解决率分别为23.3%、22.7%和13.5%,但深入分析发现,GPT-5在已提交任务中准确率达63%,远超Claude的31%。新基准严格避免数据污染,涵盖1865个商业代码库问题,强调复杂多文件修改,对比旧版难度显著提升。研究指出,Go和Python任务表现较好,而JavaScript波动大;失败原因因模型而异,如Claude语义理解不足,GPT-5工具使用需优化。整体来看,当前AI模型在真实商业场景中的编程能力仍有限,突破30%解决率成新目标。

原文链接
本文链接:https://kx.umi6.com/article/25666.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
GPT-5 将发布?OpenAI 工程师称本周将会是令人兴奋的一周
2025-08-05 15:16:34
GPT-5刚出,人们为什么又怀念GPT-4o
2025-08-11 08:57:55
首个GPT-5视频Agent一句话即出整片!全流程代劳,0门槛当导演
2025-08-26 17:48:53
奥特曼预期管理失败,GPT-5让人失望了?
2025-08-09 18:36:01
应对 GPT-5 需求增长,OpenAI CEO 奥尔特曼公布算力分配计划
2025-08-12 10:15:48
OpenAI 的“iPhone 时刻”:奥尔特曼称 GPT-5 是全球最佳写作、编程 AI 模型,免费 ChatGPT 用户也能体验
2025-08-08 03:00:19
GPT-5来了!人人都能免费用,最强大模型只需最傻瓜式使用
2025-08-08 04:01:37
OpenAI总裁透露GPT-5改了推理范式,AGI实现要靠现实反馈
2025-08-18 17:48:45
OpenAI 宣布 ChatGPT-4o 面向 Plus 和 Team 用户重新上线,下周推出迷你版 GPT-5
2025-08-09 16:33:15
OpenAI GPT-5 编程成绩有猫腻:自删 23 道测试题,关键基准还是自己提的
2025-08-12 13:18:21
OpenAI向美国政府提供ChatGPT企业版:每个机构每年1美元
2025-08-07 01:41:14
第一时间体验GPT-5,人人免费可用,马斯克表示不服
2025-08-08 06:03:18
OpenAI高管自爆:Scaling不死,GPT-5「双轴训练」撕开智能天花板
2025-08-21 15:33:31
24小时热文
更多
扫一扫体验小程序