1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

2025年9月,Scale AI发布新基准SWE-BENCH PRO,用于评估大语言模型的编程能力。结果显示,GPT-5、Claude Opus 4.1和Gemini 2.5分别以23.3%、22.7%和13.5%的解决率位列前三,但整体表现远低于此前SWE-Bench-Verified的70%平均正确率。研究人员指出,SWE-BENCH PRO通过全新题目避免数据污染,任务复杂度更高,涵盖1865个多元化代码库。深入分析表明,GPT-5在已提交任务中准确率达63%,显著优于其他模型,但未回答率高达63.1%。此外,各模型失败原因各异,如Claude Opus 4.1语义理解不足,GPT-5工具使用存疑,Gemini 2.5多维度能力均衡但无突出优势。研究认为,当前模型在真实商业场景中的问题解决能力仍有限,突破30%解决率成为下一步目标。

原文链接
本文链接:https://kx.umi6.com/article/25697.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
应对 GPT-5 需求增长,OpenAI CEO 奥尔特曼公布算力分配计划
2025-08-12 10:15:48
首个接入GPT-5的视频Agent!一句话生成广告大片,分镜配音全包了
2025-08-26 16:47:05
写在GPT-5风波之后:为什么AI的智商和情商不可兼得?
2025-08-14 10:51:09
OpenAI推出GPT-5模型 机构称AI应用落地与政策支持共振加速
2025-08-08 08:12:16
我们都错怪GPT-5了,路由统一算力,免费用户也能创造收益
2025-08-14 15:57:37
GPT-5“变笨”,实锤了?
2025-09-01 17:22:41
微软 Visual Studio 上线 GPT-5,复杂任务推理决策能力“大幅”提升
2025-08-13 08:31:33
GPT-5差评启示录:用户与AI交互方式还停留在上一个时代
2025-08-22 13:46:04
GPT-5 没有惊喜,但信号拉满
2025-08-11 13:00:45
OpenAI 宣布 ChatGPT-4o 面向 Plus 和 Team 用户重新上线,下周推出迷你版 GPT-5
2025-08-09 16:33:15
奥尔特曼:感受不到 GPT-5 变强,是因为你还不够「专业」
2025-10-05 20:24:55
GPT-5超越人类医生!推理能力比专家高出24%,理解力强29%
2025-08-15 16:18:18
GPT-5 AI 模型全面登陆微软生态系统:更聪明、更连贯、更懂你
2025-08-08 09:07:40
24小时热文
更多
扫一扫体验小程序