1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

2025年9月,Scale AI发布新基准SWE-BENCH PRO,用于评估大语言模型的编程能力。结果显示,GPT-5、Claude Opus 4.1和Gemini 2.5分别以23.3%、22.7%和13.5%的解决率位列前三,但整体表现远低于此前SWE-Bench-Verified的70%平均正确率。研究人员指出,SWE-BENCH PRO通过全新题目避免数据污染,任务复杂度更高,涵盖1865个多元化代码库。深入分析表明,GPT-5在已提交任务中准确率达63%,显著优于其他模型,但未回答率高达63.1%。此外,各模型失败原因各异,如Claude Opus 4.1语义理解不足,GPT-5工具使用存疑,Gemini 2.5多维度能力均衡但无突出优势。研究认为,当前模型在真实商业场景中的问题解决能力仍有限,突破30%解决率成为下一步目标。

原文链接
本文链接:https://kx.umi6.com/article/25697.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
GPT-5的野心比技术更致命
2025-08-08 21:19:53
GPT-5“让人失望”,AI“撞墙”了吗?
2025-08-17 19:40:29
四种变体可选:OpenAI 最强模型 GPT-5 宣传文案遭偷跑,增强代码质量 / 用户体验
2025-08-07 15:52:58
OpenAI旧版回归,年度最失望AI 留下了什么
2025-08-13 15:41:58
OpenAI GPT-5 拥有博士级能力?谷歌 DeepMind CEO:无稽之谈
2025-09-14 17:44:15
OpenAI:正在让 GPT-5 变得“更温暖、更友好、不奉承”
2025-08-16 12:24:21
狼真的要来了!GPT-5准备抢走打工人的饭碗
2025-08-08 16:15:53
GPT-5能让普通人变成博士,但魔法依旧没有
2025-08-08 12:10:14
GPT-5不是技术新范式,是OpenAI加速产品化的战略拐点
2025-08-13 08:37:09
我们都错怪GPT-5了,路由统一算力,免费用户也能创造收益
2025-08-14 15:57:37
GPT-5通关《宝可梦水晶》创纪录!9517步击败赤爷,效率碾压o3三倍!
2025-08-26 17:48:25
刚刚,GPT-5正式发布,奥特曼:这是全球最好的模型
2025-08-08 02:00:49
GPT-5“变笨”,实锤了?
2025-09-01 17:22:41
24小时热文
更多
扫一扫体验小程序