大模型“自动修 bug”能力将提升，豆包团队开源首个多语言代码修复基准 Multi-SWE-bench

2025-04-10 14:54:23

虚拟微光

发布在

快讯

阅读：666

4月10日，豆包大模型团队开源了首个多语言代码修复基准Multi-SWE-bench，用于评估和提升大模型的‘自动修Bug’能力。该数据集基于SWE-bench，在GitHub issue基础上构建，首次覆盖Python之外的7种主流编程语言（Java、Go、Rust、C、C++、TypeScript、JavaScript）。Multi-SWE-bench通过任务难度分级（简单、中等、困难），系统性评估大模型的多语言泛化能力，包含1632个源自真实开源仓库的实例，所有样本均经过专业开发者审核，确保高质量。此项目旨在推动自动编程技术向多语言、高复杂度的真实问题解决能力发展，促进多语言软件开发Agent的研究。相关资源已公开，包括论文、榜单、代码及数据链接。

原文链接

本文链接：https://kx.umi6.com/article/16955.html

转载请注明文章出处

Multi-SWE-bench