2025年8月12日,OpenAI因GPT-5在SWE-bench Verified测试中被质疑作弊引发争议。测试显示GPT-5得分74.9%,略高于Claude Opus 4.1的74.5%,但GPT-5仅完成477道题,少做23道难题,理由是‘基础设施无法运行’。分析机构SemiAnalysis指出,若将未答题算零分,GPT-5成绩会下降。此外,OpenAI推出的SWE-bench Verified测试集经过筛选,剔除了高难度题目,被批评为‘既是裁判又是选手’。而在更原汁原味的swebench.com榜单上,Claude 4 Opus反而领先。同日,OpenAI内部模型在IOI 2025竞赛中取得AI组第一,但该版本与公开版性能有差距。争议背后,AI竞赛中的微小差异成为营销焦点,但用户更关注价格优势,GPT-5价格仅为竞品的十分之一。
原文链接
本文链接:https://kx.umi6.com/article/23418.html
转载请注明文章出处
相关推荐
.png)
换一换
曝 OpenAI 正向多家企业推介使用 ChatGPT 登录:可将 API 成本转嫁用户,无形扩大影响力
2025-10-18 22:38:28
OpenAI 今年推出 GPT - 6?员工否认
2025-10-19 07:43:54
GPU警钟敲响,AI过热了?
2025-10-09 09:17:25
研究称 GPT-5“有害回答”比 GPT-4o 更多,不回避“自杀”相关话题
2025-10-17 12:15:56
AMD首席财务官胡锦:与OpenAI合作预计将为公司带来数百亿美元收入
2025-10-07 10:50:10
贴脸开大,OpenAI 研究员当面嘲讽马斯克为 xAI 提出的 AGI 愿景
2025-10-22 08:41:17
OpenAI 招募逾百名前投行人士训练 AI,目标干掉初级银行从业者的重复活
2025-10-22 10:45:33
AMD与OpenAI达成重磅合作:股价暴涨24% 市值增加4500亿
2025-10-07 13:54:13
日立与OpenAI建立战略合作伙伴关系
2025-10-21 13:28:29
OpenAI收购由前苹果员工创立的人工智能初创公司
2025-10-24 01:20:07
GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道
2025-10-20 16:09:01
OpenAI以为GPT-5搞出了数学大新闻,结果…哈萨比斯都觉得尴尬
2025-10-20 11:03:26
OpenAI 推出网页浏览器 Atlas 后,谷歌股价一度下跌 3%
2025-10-22 11:45:19
545 文章
266662 浏览
24小时热文
更多

-
2025-10-24 01:20:07
-
2025-10-24 00:18:56
-
2025-10-23 21:15:29