4月10日,豆包大模型团队开源了首个多语言代码修复基准Multi-SWE-bench,用于评估和提升大模型的‘自动修Bug’能力。该数据集基于SWE-bench,在GitHub issue基础上构建,首次覆盖Python之外的7种主流编程语言(Java、Go、Rust、C、C++、TypeScript、JavaScript)。Multi-SWE-bench通过任务难度分级(简单、中等、困难),系统性评估大模型的多语言泛化能力,包含1632个源自真实开源仓库的实例,所有样本均经过专业开发者审核,确保高质量。此项目旨在推动自动编程技术向多语言、高复杂度的真实问题解决能力发展,促进多语言软件开发Agent的研究。相关资源已公开,包括论文、榜单、代码及数据链接。
原文链接
本文链接:https://kx.umi6.com/article/16955.html
转载请注明文章出处
相关推荐
.png)
换一换
茅台基金,投了“清华系”大模型企业
2025-05-25 07:56:07
60%情况下主流大模型没理解风险只是装懂!别被“安全答案”骗了
2025-06-10 17:51:47
1万tokens是检验长文本的新基准,超过后18款大模型集体失智
2025-07-17 15:23:24
415 文章
73645 浏览
24小时热文
更多

-
2025-07-21 14:20:17
-
2025-07-21 14:19:09
-
2025-07-21 14:18:00