
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
4月10日,豆包大模型团队开源了首个多语言代码修复基准Multi-SWE-bench,用于评估和提升大模型的‘自动修Bug’能力。该数据集基于SWE-bench,在GitHub issue基础上构建,首次覆盖Python之外的7种主流编程语言(Java、Go、Rust、C、C++、TypeScript、JavaScript)。Multi-SWE-bench通过任务难度分级(简单、中等、困难),系统性评估大模型的多语言泛化能力,包含1632个源自真实开源仓库的实例,所有样本均经过专业开发者审核,确保高质量。此项目旨在推动自动编程技术向多语言、高复杂度的真实问题解决能力发展,促进多语言软件开发Agent的研究。相关资源已公开,包括论文、榜单、代码及数据链接。
原文链接
加载更多

暂无内容