1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

2025年8月,OpenAI因GPT-5编程能力测试问题引发争议。官方使用的SWE-bench Verified基准本应包含500道题,但OpenAI自行删减23道,仅用477道题评估,导致结果存疑。若将删减题目默认为零分,GPT-5得分甚至低于Claude Opus 4.1,两者差距仅为0.4%。这一操作延续了GPT-4.1发布时的做法,理由是部分题目无法在其基础设施运行。更讽刺的是,SWE-bench Verified本身是OpenAI提出并优化的基准。与此同时,Anthropic明确指出其Claude 4系列模型基于完整500题测试,表现优于GPT-5。目前,最原始的SWE-bench榜单中,Claude 4 Opus仍居首位。

原文链接
本文链接:https://kx.umi6.com/article/23424.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
拜拜Claude!阿里最强万亿模型编程秒了Opus4,实测在此
2025-09-06 12:37:03
GPT-5“变笨”实锤,退休教授出了道井字棋送分题,结果它真送了
2025-09-01 16:18:53
OpenAI 研究人员夸大 GPT-5 数学能力后删帖,遭杨立昆等业界人士批评
2025-10-19 08:45:17
OpenAI 宣布 ChatGPT-4o 面向 Plus 和 Team 用户重新上线,下周推出迷你版 GPT-5
2025-08-09 16:33:15
国产AI大模型GLM-5.1发布:编程能力距全球最强只差3分
2026-03-27 21:19:50
颤抖吧,Bug!OpenAI放出GPT-5「夜行神兽」,命中92%漏洞
2025-11-01 23:52:24
GPT-5的拙劣发布,戳破了AI取代公关的谎言
2025-08-12 19:23:40
“还我GPT-4o”!奥特曼强推GPT-5惹怒网友,紧急公关来了
2025-08-09 17:33:33
GPT-5攻入数学圈,证明定理快过博士生?网友热议AI新角色
2025-09-19 20:18:56
首个GPT-5视频Agent一句话即出整片!全流程代劳,0门槛当导演
2025-08-26 17:48:53
GPT-5系统提示词被泄露,ChatGPT自己也「承认」了
2025-08-25 18:32:20
GPT-5为量子计算提供关键思路!大牛盛赞:不到半小时给出“灵魂一击”
2025-09-29 13:08:15
OpenAI总裁透露GPT-5改了推理范式,AGI实现要靠现实反馈
2025-08-18 17:48:45
24小时热文
更多
扫一扫体验小程序