2025年8月,OpenAI因GPT-5编程能力测试问题引发争议。官方使用的SWE-bench Verified基准本应包含500道题,但OpenAI自行删减23道,仅用477道题评估,导致结果存疑。若将删减题目默认为零分,GPT-5得分甚至低于Claude Opus 4.1,两者差距仅为0.4%。这一操作延续了GPT-4.1发布时的做法,理由是部分题目无法在其基础设施运行。更讽刺的是,SWE-bench Verified本身是OpenAI提出并优化的基准。与此同时,Anthropic明确指出其Claude 4系列模型基于完整500题测试,表现优于GPT-5。目前,最原始的SWE-bench榜单中,Claude 4 Opus仍居首位。
原文链接
本文链接:https://kx.umi6.com/article/23424.html
转载请注明文章出处
相关推荐
换一换
每天都和 AI 聊天,你可能已经是个「神经病」
2025-11-03 13:20:42
首个GPT-5视频Agent一句话即出整片!全流程代劳,0门槛当导演
2025-08-26 17:48:53
拜拜Claude!阿里最强万亿模型编程秒了Opus4,实测在此
2025-09-06 12:37:03
GPT-5又帮陶哲轩解决了一个难题
2025-09-03 15:46:53
GPT-5通关《宝可梦水晶》创纪录!9517步击败赤爷,效率碾压o3三倍!
2025-08-26 17:48:25
OpenAI高管自爆:Scaling不死,GPT-5「双轴训练」撕开智能天花板
2025-08-21 15:33:31
陶哲轩用GPT-5解决数学难题:仅29行Python代码
2025-10-04 12:59:43
奥尔特曼答网友问:GPT-5 为何“降智”、是否保留 GPT-4o、发布会图表出错……
2025-08-09 08:25:28
我们都错怪GPT-5了,路由统一算力,免费用户也能创造收益
2025-08-14 15:57:37
GPT-5“变笨”,实锤了?
2025-09-01 17:22:41
奥特曼预期管理失败,GPT-5让人失望了?
2025-08-09 18:36:01
奥尔特曼最新发声:OpenAI乐于选择亏损 不关心马斯克
2025-08-09 01:22:32
OpenAI:GPT-5 模型正开始减轻科学家日常工作量
2025-11-22 00:51:13
659 文章
486547 浏览
24小时热文
更多
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18