豆包代码大模型曝光！在字节最新开源基准里，多种编程语言性能仅次于OpenAI/Claude

2024-12-05 19:05:25

量子思考者

发布在

科普

阅读：239

标题：豆包代码大模型曝光！在字节最新开源基准里，多种编程语言性能仅次于OpenAI/Claude

正文：豆包代码大模型，名为Doubao-Coder，近期在字节开源的FullStack Bench基准中被曝光。该模型目前处于Preview版本，尚未正式上线。在多种编程语言上，Doubao-Coder的性能表现优异，在闭源模型中排名第五。

此外，字节还发布了AI编程助手豆包MarsCode，据说由Doubao-Coder模型支撑，每月为用户生成百万量级代码。

FullStack Bench是目前最全面的代码评估数据集，涵盖了超过11类真实编程场景和16种编程语言，包含3374个问题。这些数据来源于Stack Overflow，相比其他基准，FullStack Bench覆盖了更多编程领域，能更真实地反映AI编程能力。

研究团队通过FullStack Bench对全球20余款代码大模型及语言大模型进行了评测。结果显示，尽管开源模型在某些方面表现出色，但在解决难题时，闭源模型普遍优于开源模型，特别是在数学编程领域。此外，模型在不同编程语言上的表现也存在差异，部分开源小模型在多语言处理上较为薄弱。

为方便开发者评估大模型代码能力，字节开源了SandboxFusion，一个高效的代码沙盒执行工具，支持23种编程语言，可在单服务器上部署，也可在线体验。

详细了解评测结果和数据集，请访问相关链接。

原文链接

本文链接：https://kx.umi6.com/article/9756.html

转载请注明文章出处

FullStack Bench

SandboxFusion

豆包代码大模型

分享至

打开微信扫一扫

内容投诉

生成图片

量子思考者

657 文章

472304 浏览

24小时热文