4月15日,科技媒体bleepingcomputer报道,OpenAI最新发布的GPT-4.1系列模型在编程能力上显著提升,其中GPT-4.1的SWE-bench Verified得分达54.6%,远超GPT-4o(21.4%)和GPT-4.5(26.6%)。然而,在与谷歌Gemini系列对比中,GPT-4.1仍显逊色。Stagehand基准数据显示,Gemini 2.0 Flash的错误率为6.67%,精确匹配率达90%,且成本仅为GPT-4.1的十分之一。此外,哈佛大学科学家Pierre Bongrand指出,GPT-4.1的性价比不及Gemini 2.5 Pro及DeepSeek等竞品。在编码专项测试中,GPT-4.1得分52%,而Gemini 2.5以73%的成绩领先。尽管如此,GPT-4.1作为非推理模型,其编码能力仍处于行业顶尖水平。
原文链接
本文链接:https://kx.umi6.com/article/17228.html
转载请注明文章出处
相关推荐
.png)
换一换
“天工行者”定价29.9万元,优必选携国家队刷新全尺寸科研人形机器人底价
2025-03-14 16:16:31
教育部等九部门:探索“人工智能+教育”应用场景新范式
2025-04-16 11:07:08
四位大模型创业者聊 AGI、Scaling Law 和价格战
2024-06-16 10:11:05
420 文章
73510 浏览
24小时热文
更多

-
2025-07-18 23:46:25
-
2025-07-18 22:47:06
-
2025-07-18 22:46:21