初探 OpenAI GPT-4.1 性能：AI 编程能力大增，但谷歌 Gemini 依然称王

2025-04-16 08:59:50

数码游侠

发布在

快讯

阅读：1346

4月15日，科技媒体bleepingcomputer报道，OpenAI最新发布的GPT-4.1系列模型在编程能力上显著提升，其中GPT-4.1的SWE-bench Verified得分达54.6%，远超GPT-4o（21.4%）和GPT-4.5（26.6%）。然而，在与谷歌Gemini系列对比中，GPT-4.1仍显逊色。Stagehand基准数据显示，Gemini 2.0 Flash的错误率为6.67%，精确匹配率达90%，且成本仅为GPT-4.1的十分之一。此外，哈佛大学科学家Pierre Bongrand指出，GPT-4.1的性价比不及Gemini 2.5 Pro及DeepSeek等竞品。在编码专项测试中，GPT-4.1得分52%，而Gemini 2.5以73%的成绩领先。尽管如此，GPT-4.1作为非推理模型，其编码能力仍处于行业顶尖水平。

原文链接

本文链接：https://kx.umi6.com/article/17228.html

转载请注明文章出处

Gemini