2025年8月12日,OpenAI因GPT-5在SWE-bench Verified测试中被质疑作弊引发争议。测试显示GPT-5得分74.9%,略高于Claude Opus 4.1的74.5%,但GPT-5仅完成477道题,少做23道难题,理由是‘基础设施无法运行’。分析机构SemiAnalysis指出,若将未答题算零分,GPT-5成绩会下降。此外,OpenAI推出的SWE-bench Verified测试集经过筛选,剔除了高难度题目,被批评为‘既是裁判又是选手’。而在更原汁原味的swebench.com榜单上,Claude 4 Opus反而领先。同日,OpenAI内部模型在IOI 2025竞赛中取得AI组第一,但该版本与公开版性能有差距。争议背后,AI竞赛中的微小差异成为营销焦点,但用户更关注价格优势,GPT-5价格仅为竞品的十分之一。
原文链接
本文链接:https://kx.umi6.com/article/23418.html
转载请注明文章出处
相关推荐
换一换
Anthropic遭遇OpenAI贴身肉搏,上市路多了个坎
2026-01-31 12:30:58
OpenAI聘请OpenClaw AI智能体开发者斯坦伯格
2026-03-09 21:13:27
OpenAI 新功能曝光:代号“奏鸣曲”,猜测与 ChatGPT 音频体验有关
2026-01-19 19:09:37
OpenAI正敲定1000亿美元巨额融资轮的首批投资承诺
2026-02-19 11:19:20
缺乏实质证据 美国法院暂时驳回xAI针对OpenAI的商业机密侵权指控
2026-02-25 17:42:04
OpenAI在ChatGPT中加载广告,这是一个1.4万亿美元的市场
2026-01-21 13:10:00
中信建投:OpenAI落地广告变现 大模型商业化加速中
2026-02-04 08:30:40
OpenAI或为亚马逊AI产品开发定制化模型
2026-02-04 22:10:24
不读博士,照样进OpenAI!o1核心成员现身说法了
2026-01-25 20:26:08
OpenAI推出首款搭载英伟达竞争对手Cerebras芯片的AI模型
2026-02-13 02:57:22
OpenAI拟运用AI助力药企研发并从中获利
2026-02-04 08:29:27
OpenAI与Ginkgo合作使蛋白质生产成本降低40%
2026-02-06 03:31:10
教科书《性能之巅》作者入职OpenAI!迷弟总裁亲自欢迎
2026-02-08 14:07:29
698 文章
557584 浏览
24小时热文
更多
-
2026-04-24 08:00:05 -
2026-04-24 06:56:46 -
2026-04-24 06:55:41