2025年8月,OpenAI因GPT-5编程能力测试问题引发争议。官方使用的SWE-bench Verified基准本应包含500道题,但OpenAI自行删减23道,仅用477道题评估,导致结果存疑。若将删减题目默认为零分,GPT-5得分甚至低于Claude Opus 4.1,两者差距仅为0.4%。这一操作延续了GPT-4.1发布时的做法,理由是部分题目无法在其基础设施运行。更讽刺的是,SWE-bench Verified本身是OpenAI提出并优化的基准。与此同时,Anthropic明确指出其Claude 4系列模型基于完整500题测试,表现优于GPT-5。目前,最原始的SWE-bench榜单中,Claude 4 Opus仍居首位。
原文链接
本文链接:https://kx.umi6.com/article/23424.html
转载请注明文章出处
相关推荐
换一换
写在GPT-5风波之后:为什么AI的智商和情商不可兼得?
2025-08-14 10:51:09
奥尔特曼:感受不到 GPT-5 变强,是因为你还不够「专业」
2025-10-05 20:24:55
OpenAI以为GPT-5搞出了数学大新闻,结果…哈萨比斯都觉得尴尬
2025-10-20 11:03:26
研究称 GPT-5“有害回答”比 GPT-4o 更多,不回避“自杀”相关话题
2025-10-17 12:15:56
硅谷画饼王“塌房”:奥特曼撒谎微表情被扒光,网友集体喊下台
2025-08-16 18:29:48
GPT-5的拙劣发布,戳破了AI取代公关的谎言
2025-08-12 19:23:40
OpenAI ChatGPT 更新:GPT-5 引入三种模式,4o 模型回归
2025-08-13 10:31:24
GPT-5来了,Kimi却掉队了
2025-08-12 15:22:00
GPT-5刚出,人们为什么又怀念GPT-4o
2025-08-11 08:57:55
苹果发布 Xcode 26 Beta 7:新增 GPT-5 支持并集成 Claude
2025-08-29 07:32:56
GPT-5系统提示词被泄露,ChatGPT自己也「承认」了
2025-08-25 18:32:20
应对 GPT-5 需求增长,OpenAI CEO 奥尔特曼公布算力分配计划
2025-08-12 10:15:48
全球首个AI投资大赛落幕!阿里Qwen 20%收益夺冠,GPT-5亏到只剩三成
2025-11-04 17:21:10
616 文章
416050 浏览
24小时热文
更多
-
2026-01-23 10:51:27 -
2026-01-23 10:50:21 -
2026-01-23 10:49:16