1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

4月10日,豆包大模型团队开源了首个多语言代码修复基准Multi-SWE-bench,用于评估和提升大模型的‘自动修Bug’能力。该数据集基于SWE-bench,在GitHub issue基础上构建,首次覆盖Python之外的7种主流编程语言(Java、Go、Rust、C、C++、TypeScript、JavaScript)。Multi-SWE-bench通过任务难度分级(简单、中等、困难),系统性评估大模型的多语言泛化能力,包含1632个源自真实开源仓库的实例,所有样本均经过专业开发者审核,确保高质量。此项目旨在推动自动编程技术向多语言、高复杂度的真实问题解决能力发展,促进多语言软件开发Agent的研究。相关资源已公开,包括论文、榜单、代码及数据链接。

原文链接
本文链接:https://kx.umi6.com/article/16955.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
硅基流动入驻阿里云云市场,核心 API 服务将全面接入百炼平台
2025-06-19 09:45:52
亚马逊云科技大中华区总裁储瑞松:Agentic AI处于爆发前夜
2025-06-19 10:49:07
港股AGI第一股“云知声”首战告捷:大模型贡献1亿收入,单客价直线提升116.2%,AI保险业务暴涨1386.8%
2025-08-29 20:43:34
中国信通院开展面向大模型的全栈国产软硬件系统适配测试工作
2025-07-23 16:55:22
大模型参与推理崩溃论战!从「思维错觉」到「错觉的错觉」再到「错觉的错觉的错觉」
2025-06-20 18:02:43
高性能计算群星闪耀时
2025-08-21 12:35:24
GPT-5能让普通人变成博士,但魔法依旧没有
2025-08-08 12:10:14
卖酒的茅台要学AI了!和奔驰麦当劳一起拜师百度
2025-08-17 12:35:45
字节对大模型方向加码期权激励 核心技术员工最高可获百万元
2025-09-03 15:50:37
我国大模型数量居全球首位,达到 1509 个、占比达 40%
2025-07-27 13:57:47
大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱
2025-07-08 17:52:09
对话中国信通院魏凯:AI下半场,大模型要少说话,多做事
2025-07-01 08:51:07
大模型掌握人类空间思考能力!三阶段训练框架学会“边画边想”,5个基准平均提升18.4%
2025-06-21 15:10:12
24小时热文
更多
扫一扫体验小程序