2025年8月12日,OpenAI因GPT-5在SWE-bench Verified测试中被质疑作弊引发争议。测试显示GPT-5得分74.9%,略高于Claude Opus 4.1的74.5%,但GPT-5仅完成477道题,少做23道难题,理由是‘基础设施无法运行’。分析机构SemiAnalysis指出,若将未答题算零分,GPT-5成绩会下降。此外,OpenAI推出的SWE-bench Verified测试集经过筛选,剔除了高难度题目,被批评为‘既是裁判又是选手’。而在更原汁原味的swebench.com榜单上,Claude 4 Opus反而领先。同日,OpenAI内部模型在IOI 2025竞赛中取得AI组第一,但该版本与公开版性能有差距。争议背后,AI竞赛中的微小差异成为营销焦点,但用户更关注价格优势,GPT-5价格仅为竞品的十分之一。
原文链接
本文链接:https://kx.umi6.com/article/23418.html
转载请注明文章出处
相关推荐
换一换
AI新王诞生!Anthropic估值冲爆1.2万亿 首次反超OpenAI
2026-05-07 23:46:12
OpenAI智能体手机冲击明年量产 目标两年出货3000万部
2026-05-06 16:27:18
刚被媒体曝黑料 豪宅又被人爆弹 OpenAI CEO回应:气得要命
2026-04-11 14:03:36
OpenAI推出药物研发AI模型 挑战谷歌
2026-04-17 05:42:36
OpenAI与美国军方合作引发用户反对:ChatGPT卸载量增加295% 一星评价激增775%
2026-03-03 11:59:16
OpenAI挖来了个F1级别车手搞公关
2026-05-27 15:32:34
奥特曼趁马斯克出差爆猛料:他曾想让子女继承OpenAI
2026-05-13 12:33:09
OpenAI计划年底前将员工人数增加近一倍至8000人
2026-03-21 20:42:38
OpenAI完成1220亿美元融资 投后估值8520亿美元
2026-04-01 08:34:25
OpenAI回应TanStack供应链攻击:未发现用户数据泄露
2026-05-14 14:41:58
AWS与OpenAI联合开发“有状态运行时环境” 预计数月内推出
2026-02-28 14:23:02
郭明錤:OpenAI进军手机 正与联发科、高通合作开发处理器
2026-04-27 12:10:29
1220亿美元!OpenAI创下史上最大单笔融资纪录
2026-04-01 09:34:49
728 文章
648655 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41