1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

4月10日,豆包大模型团队开源了首个多语言代码修复基准Multi-SWE-bench,用于评估和提升大模型的‘自动修Bug’能力。该数据集基于SWE-bench,在GitHub issue基础上构建,首次覆盖Python之外的7种主流编程语言(Java、Go、Rust、C、C++、TypeScript、JavaScript)。Multi-SWE-bench通过任务难度分级(简单、中等、困难),系统性评估大模型的多语言泛化能力,包含1632个源自真实开源仓库的实例,所有样本均经过专业开发者审核,确保高质量。此项目旨在推动自动编程技术向多语言、高复杂度的真实问题解决能力发展,促进多语言软件开发Agent的研究。相关资源已公开,包括论文、榜单、代码及数据链接。

原文链接
本文链接:https://kx.umi6.com/article/16955.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
茅台基金,投了“清华系”大模型企业
2025-05-25 07:56:07
60%情况下主流大模型没理解风险只是装懂!别被“安全答案”骗了
2025-06-10 17:51:47
1万tokens是检验长文本的新基准,超过后18款大模型集体失智
2025-07-17 15:23:24
24小时热文
更多
扫一扫体验小程序