4月15日,科技媒体bleepingcomputer报道,OpenAI最新发布的GPT-4.1系列模型在编程能力上显著提升,其中GPT-4.1的SWE-bench Verified得分达54.6%,远超GPT-4o(21.4%)和GPT-4.5(26.6%)。然而,在与谷歌Gemini系列对比中,GPT-4.1仍显逊色。Stagehand基准数据显示,Gemini 2.0 Flash的错误率为6.67%,精确匹配率达90%,且成本仅为GPT-4.1的十分之一。此外,哈佛大学科学家Pierre Bongrand指出,GPT-4.1的性价比不及Gemini 2.5 Pro及DeepSeek等竞品。在编码专项测试中,GPT-4.1得分52%,而Gemini 2.5以73%的成绩领先。尽管如此,GPT-4.1作为非推理模型,其编码能力仍处于行业顶尖水平。
原文链接
本文链接:https://kx.umi6.com/article/17228.html
转载请注明文章出处
相关推荐
换一换
马斯克诉OpenAI案新进展:微软CEO纳德拉称马斯克从未向其质疑微软投资
2026-05-12 12:09:18
OpenAI据悉拟在ChatGPT中接入视频生成工具Sora
2026-03-11 16:17:18
OpenAI据悉完成了新AI模型的初步开发
2026-03-25 04:57:32
投资人不买账 OpenAI估值8520亿美元遭质疑:战略转向引发争议
2026-04-15 06:41:58
OpenAI计划年底前将员工人数增加近一倍至8000人
2026-03-21 20:42:38
Ilya曝光70页OpenAI绝密文件
2026-04-07 10:47:37
OpenAI的Codex登陆亚马逊Bedrock平台
2026-04-29 02:54:02
OpenAI急眼了!四页密信怒撕Claude,80亿营收全掺水
2026-04-14 17:09:22
AI新王诞生!Anthropic估值冲爆1.2万亿 首次反超OpenAI
2026-05-07 23:46:12
菲尔兹奖得主都看懵了:OpenAI非数学模型首次自主突破80年未解数学难题
2026-05-21 17:54:30
OpenAI落子新加坡 首设海外人工智能实验室
2026-05-20 15:45:11
OpenAI,危机四伏
2026-04-27 10:03:03
报告:Anthropic企业采用率首超OpenAI
2026-05-14 13:40:50
731 文章
651314 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41