2025年8月12日,OpenAI因GPT-5在SWE-bench Verified测试中被质疑作弊引发争议。测试显示GPT-5得分74.9%,略高于Claude Opus 4.1的74.5%,但GPT-5仅完成477道题,少做23道难题,理由是‘基础设施无法运行’。分析机构SemiAnalysis指出,若将未答题算零分,GPT-5成绩会下降。此外,OpenAI推出的SWE-bench Verified测试集经过筛选,剔除了高难度题目,被批评为‘既是裁判又是选手’。而在更原汁原味的swebench.com榜单上,Claude 4 Opus反而领先。同日,OpenAI内部模型在IOI 2025竞赛中取得AI组第一,但该版本与公开版性能有差距。争议背后,AI竞赛中的微小差异成为营销焦点,但用户更关注价格优势,GPT-5价格仅为竞品的十分之一。
原文链接
本文链接:https://kx.umi6.com/article/23418.html
转载请注明文章出处
相关推荐
换一换
OpenAI宣布与富士康达成合作
2025-11-21 08:09:03
微软与 OpenAI 账本曝光,AI 巨头们的“分钱”游戏
2025-11-15 15:54:19
英国心理学家警告:GPT-5 会向精神疾病患者提供危险建议
2025-12-01 18:26:06
剑指全球最大订阅服务!OpenAI预计:ChatGPT五年内付费用户将达2.2亿
2025-11-26 14:47:40
OpenAI的Stargate项目获得Blue Owl的30亿美元
2025-11-11 22:31:29
OpenAI 大胆预测:2030 年 ChatGPT 周活用户 26 亿,其中 2.2 亿人选择订阅
2025-11-26 10:36:37
自研 AI 芯片进展缓慢,微软 CEO 纳德拉计划借“OpenAI 之力”推进研发
2025-11-13 08:48:58
OpenAI:第三方 Mixpanel 发生网安事件,部分 API 用户数据可能泄露
2025-11-27 15:45:27
微软宣布组建超级智能团队,自研 AI 模型摆脱对 OpenAI 的依赖
2025-11-06 23:18:30
OpenAI、阿里、字节们的AI硬件战事:害怕错过下一代入口
2025-12-06 12:27:46
加量不加价:OpenAI 最强编程 AI 模型 API 开放,连续写代码可超 24 小时
2025-12-05 14:33:49
坦白从宽:OpenAI 开发新系统教导模型诚实承认自身“不良行为”
2025-12-04 17:36:30
OpenAI 投了一家初创公司 Red Queen Bio,旨在阻止 AI 制造生物武器
2025-11-14 16:05:54
606 文章
366675 浏览
24小时热文
更多
-
2025-12-08 23:53:52 -
2025-12-08 22:52:38 -
2025-12-08 22:51:57