Multi-SWE-bench - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

大模型“自动修 bug”能力将提升，豆包团队开源首个多语言代码修复基准 Multi-SWE-bench

4月10日，豆包大模型团队开源了首个多语言代码修复基准Multi-SWE-bench，用于评估和提升大模型的‘自动修Bug’能力。该数据集基于SWE-bench，在GitHub issue基础上构建，首次覆盖Python之外的7种主流编程语言（Java、Go、Rust、C、C++、TypeScript、JavaScript）。Multi-SWE-bench通过任务难度分级（简单、中等、困难），系统性评估大模型的多语言泛化能力，包含1632个源自真实开源仓库的实例，所有样本均经过专业开发者审核，确保高质量。此项目旨在推动自动编程技术向多语言、高复杂度的真实问题解决能力发展，促进多语言软件开发Agent的研究。相关资源已公开，包括论文、榜单、代码及数据链接。

原文链接