2025年8月12日,OpenAI因GPT-5在SWE-bench Verified测试中被质疑作弊引发争议。测试显示GPT-5得分74.9%,略高于Claude Opus 4.1的74.5%,但GPT-5仅完成477道题,少做23道难题,理由是‘基础设施无法运行’。分析机构SemiAnalysis指出,若将未答题算零分,GPT-5成绩会下降。此外,OpenAI推出的SWE-bench Verified测试集经过筛选,剔除了高难度题目,被批评为‘既是裁判又是选手’。而在更原汁原味的swebench.com榜单上,Claude 4 Opus反而领先。同日,OpenAI内部模型在IOI 2025竞赛中取得AI组第一,但该版本与公开版性能有差距。争议背后,AI竞赛中的微小差异成为营销焦点,但用户更关注价格优势,GPT-5价格仅为竞品的十分之一。
原文链接
本文链接:https://kx.umi6.com/article/23418.html
转载请注明文章出处
相关推荐
换一换
OpenAI最快将于下周二发布GPT-5.2
2025-12-06 07:18:55
ChatGPT强行上马广告,因为OpenAI真的很烧钱
2026-01-19 16:01:57
OpenAI家务机器人售价2万美元
2026-01-06 03:42:50
GPT-5.2-Codex 正式亮相
2025-12-19 04:26:13
OpenAI 亲自“打预防针”,警告自家新模型存在“高级别”网络安全风险
2025-12-11 16:01:13
OpenAI首款硬件定型为笔!网友:就叫oPen吧
2026-01-04 16:12:59
OpenAI正在物色新的风险防范主管
2025-12-29 15:35:54
GPT-5.2 提前泄露?线索显示其已“超越 Gemini 3”
2025-12-11 16:00:08
OpenAI和谷歌通过免费赠品争夺印度用户和训练数据
2025-12-17 20:03:37
OpenAI 首款硬件设备被曝为 AI 耳机,首年有望出货 4000~5000 万台
2026-01-21 12:05:04
OpenAI 与晶圆级 AI 芯片企业 Cerebras 达成合作,三年部署 750MW 推理系统
2026-01-15 10:26:49
马斯克诉OpenAI案将于4月下旬进入审判程序
2026-01-16 11:33:52
OpenAI在ChatGPT中加载广告,这是一个1.4万亿美元的市场
2026-01-21 13:10:00
640 文章
430081 浏览
24小时热文
更多
-
2026-01-23 17:11:08 -
2026-01-23 17:10:00 -
2026-01-23 17:08:55