4月15日,科技媒体bleepingcomputer报道,OpenAI最新发布的GPT-4.1系列模型在编程能力上显著提升,其中GPT-4.1的SWE-bench Verified得分达54.6%,远超GPT-4o(21.4%)和GPT-4.5(26.6%)。然而,在与谷歌Gemini系列对比中,GPT-4.1仍显逊色。Stagehand基准数据显示,Gemini 2.0 Flash的错误率为6.67%,精确匹配率达90%,且成本仅为GPT-4.1的十分之一。此外,哈佛大学科学家Pierre Bongrand指出,GPT-4.1的性价比不及Gemini 2.5 Pro及DeepSeek等竞品。在编码专项测试中,GPT-4.1得分52%,而Gemini 2.5以73%的成绩领先。尽管如此,GPT-4.1作为非推理模型,其编码能力仍处于行业顶尖水平。
原文链接
本文链接:https://kx.umi6.com/article/17228.html
转载请注明文章出处
相关推荐
.png)
换一换
研究显示 Gemini 易被隐蔽指令操控,谷歌无意修复
2025-10-11 09:37:14
OpenAI 的网络浏览器:ChatGPT Atlas 正式发布,能让 AI“替你上网”
2025-10-22 02:34:53
OpenAI有花不完的钱?AI泡沫让人想起了当年的网络股
2025-10-15 08:31:01
抢 Photoshop“饭碗”,数据显示谷歌生图模型 Nano Banana 已明显威胁 Adobe 地位
2025-10-17 09:10:22
OpenAI要刮油,谁会掉层皮?
2025-10-02 12:11:32
微软 Azure 推出业界首个生产级英伟达 GB300 NVL72 大型集群,顾客为 OpenAI
2025-10-11 10:01:36
OpenAI 研究人员夸大 GPT-5 数学能力后删帖,遭杨立昆等业界人士批评
2025-10-19 08:45:17
联邦法官:OpenAI必须提交有关知识产权风险、数据删除的Slack消息
2025-10-03 04:29:36
日本政府要求 OpenAI 不得通过 Sora 2 等实施任何可能侵犯版权的行为
2025-10-13 08:54:25
Salesforce与OpenAI在企业工作与商业领域建立合作伙伴关系
2025-10-14 21:24:31
OpenAI 卖货做视频,Anthropic 专心写代码,谁能赢?
2025-10-02 12:13:09
OpenAI 招募逾百名前投行人士训练 AI,目标干掉初级银行从业者的重复活
2025-10-22 10:45:33
120 亿年收入撬动 1 万亿美元订单:OpenAI 烧钱搞 AI 基建,奥尔特曼称短期内不优先考虑盈利
2025-10-09 09:09:35
527 文章
258845 浏览
24小时热文
更多

-
2025-10-23 17:12:06
-
2025-10-23 17:10:54
-
2025-10-23 16:12:32