近日,微软研究院发布研究显示,目前最先进的AI编程助手在调试软件漏洞方面的表现令人失望。研究测试了包括Claude 3.7 Sonnet和o3-mini在内的多款AI模型,它们在SWE-bench Lite基准测试中的成功率普遍低于50%,其中Claude 3.7 Sonnet的成功率最高,仅为48.4%。研究人员指出,数据稀缺是主要原因,特别是缺乏人类调试过程的详细数据。尽管AI编程助手已在谷歌和Meta等公司广泛应用,但其在理解工具使用及逻辑推理上的不足仍需改进。该研究提醒开发者谨慎依赖AI完成复杂编程任务。此前,微软联合创始人比尔·盖茨等人也质疑AI完全取代编程工作的可能性。研究发表于近期,揭示了AI辅助编程技术面临的持续挑战。
原文链接
本文链接:https://kx.umi6.com/article/17076.html
转载请注明文章出处
相关推荐
换一换
消息称 AI 编程助手 Cursor 四个月内再获 1 亿美元融资,估值暴涨 6.5 倍
2024-12-22 10:22:39
收入4个月涨2倍,“最火AI编程神器”Cursor估值达百亿美元
2025-03-10 09:26:47
谷歌正式推出AI编程助手Jules
2025-08-07 14:54:39
AI 编程助手受投资者热捧,消息称 Cursor 开发商 Anysphere 正以 100 亿美元估值进行融资
2025-03-09 15:50:03
谷歌 Jules 正式上线:14 万处代码优化,打造最佳 AI 写代码助手
2025-08-07 08:46:06
AI编程助手公司Anysphere收到投资邀约 估值约25亿美元
2024-11-07 15:02:46
一码难求背后,AI自己就能把应用上线:一个野心巨大但也刚起步的产品
2025-07-22 11:31:10
谷歌 AI 编程助手 Gemini Code Assist 新增“代理”功能,可多步骤完成复杂任务
2025-04-10 09:40:08
让编程更简单,豆包MarsCode面向开发者免费开放
2024-07-03 15:22:51
大模型看Coding,具身看Picking!原力灵机已抢先入局
2026-06-08 15:31:34
程序员爆料:Token烧到扛不住 公司全栈AI项目半路夭折
2026-06-03 17:32:02
慕尼黑工大Johannes Betz 教授:时速300公里的自动驾驶超车 | ICRA 2026
2026-06-04 16:14:04
《古墓丽影》新作封面被质疑使用AI 官方回应
2026-06-08 21:46:02
732 文章
688824 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41