近日,微软研究院发布研究显示,目前最先进的AI编程助手在调试软件漏洞方面的表现令人失望。研究测试了包括Claude 3.7 Sonnet和o3-mini在内的多款AI模型,它们在SWE-bench Lite基准测试中的成功率普遍低于50%,其中Claude 3.7 Sonnet的成功率最高,仅为48.4%。研究人员指出,数据稀缺是主要原因,特别是缺乏人类调试过程的详细数据。尽管AI编程助手已在谷歌和Meta等公司广泛应用,但其在理解工具使用及逻辑推理上的不足仍需改进。该研究提醒开发者谨慎依赖AI完成复杂编程任务。此前,微软联合创始人比尔·盖茨等人也质疑AI完全取代编程工作的可能性。研究发表于近期,揭示了AI辅助编程技术面临的持续挑战。
原文链接
本文链接:https://kx.umi6.com/article/17076.html
转载请注明文章出处
相关推荐
.png)
换一换
AI编程助手公司Anysphere收到投资邀约 估值约25亿美元
2024-11-07 15:02:46
微软研究:AI 编程助手软件调试能力堪忧
2025-04-13 09:33:08
收入4个月涨2倍,“最火AI编程神器”Cursor估值达百亿美元
2025-03-10 09:26:47
消息称 AI 编程助手 Cursor 四个月内再获 1 亿美元融资,估值暴涨 6.5 倍
2024-12-22 10:22:39
谷歌 Jules 正式上线:14 万处代码优化,打造最佳 AI 写代码助手
2025-08-07 08:46:06
一码难求背后,AI自己就能把应用上线:一个野心巨大但也刚起步的产品
2025-07-22 11:31:10
AI 编程助手受投资者热捧,消息称 Cursor 开发商 Anysphere 正以 100 亿美元估值进行融资
2025-03-09 15:50:03
谷歌正式推出AI编程助手Jules
2025-08-07 14:54:39
让编程更简单,豆包MarsCode面向开发者免费开放
2024-07-03 15:22:51
谷歌 AI 编程助手 Gemini Code Assist 新增“代理”功能,可多步骤完成复杂任务
2025-04-10 09:40:08
打造“专属对话空间”:OpenAI 向免费用户开放 ChatGPT Projects
2025-09-04 17:04:18
告别海量标注!浙大团队提出GUI-RCPO,让GUI定位在无标签数据上自我进化
2025-09-05 13:20:04
中泰证券:第三季度有望迎来医疗器械板块阶段性拐点
2025-09-05 08:17:22
482 文章
177884 浏览
24小时热文
更多

-
2025-09-06 16:37:17
-
2025-09-06 16:36:53
-
2025-09-06 16:36:08