2025年8月,OpenAI因GPT-5编程能力测试问题引发争议。官方使用的SWE-bench Verified基准本应包含500道题,但OpenAI自行删减23道,仅用477道题评估,导致结果存疑。若将删减题目默认为零分,GPT-5得分甚至低于Claude Opus 4.1,两者差距仅为0.4%。这一操作延续了GPT-4.1发布时的做法,理由是部分题目无法在其基础设施运行。更讽刺的是,SWE-bench Verified本身是OpenAI提出并优化的基准。与此同时,Anthropic明确指出其Claude 4系列模型基于完整500题测试,表现优于GPT-5。目前,最原始的SWE-bench榜单中,Claude 4 Opus仍居首位。
原文链接
本文链接:https://kx.umi6.com/article/23424.html
转载请注明文章出处
相关推荐
换一换
OpenAI的GPT-5会否开启人工智能界的价格大战?
2025-08-11 16:09:01
狼真的要来了!GPT-5准备抢走打工人的饭碗
2025-08-08 16:15:53
写在GPT-5风波之后:为什么AI的智商和情商不可兼得?
2025-08-14 10:51:09
OpenAI 申请 GPT-5 中国商标遇挫,相关申请均被驳回
2025-08-11 15:02:44
实测DeepSeek V3.1,不止拓展上下文长度
2025-08-20 17:21:15
GPT-5差评启示录:用户与AI交互方式还停留在上一个时代
2025-08-22 13:46:04
Anthropic发布模型Opus 4.5,称其编程能力已超越人类工程师
2025-11-25 06:35:31
OpenAI:正在让 GPT-5 变得“更温暖、更友好、不奉承”
2025-08-16 12:24:21
快来看看GPT-5第一波实测
2025-08-08 19:17:41
OpenAI首个GPT-5找Bug智能体:全自动读代码找漏洞写修复
2025-10-31 13:33:18
GPT-5系统提示词被泄露,ChatGPT自己也「承认」了
2025-08-25 18:32:20
OpenAI 奥尔特曼爆料:GPT-5 重构一切,一人顶五个团队
2025-09-17 22:38:26
应对 GPT-5 需求增长,OpenAI CEO 奥尔特曼公布算力分配计划
2025-08-12 10:15:48
578 文章
347340 浏览
24小时热文
更多
-
2025-12-08 23:53:52 -
2025-12-08 22:52:38 -
2025-12-08 22:51:57