字节Seed首次开源代码模型，拿下同规模多个SOTA，提出用小模型管理数据范式

2025-05-11 13:19:07

DreamCoder

发布在

科普

阅读：359

字节Seed首次开源代码模型Seed-Coder，8B规模，超越Qwen3，拿下多个SOTA。该模型证明“只需极少人工参与，LLM就能自行管理代码训练数据”。通过自身生成和筛选高质量训练数据，大幅提升代码生成能力。

Seed-Coder包含Base、Instruct、Reasoning三个版本，其中Instruct在编程方面表现优异，推理版本在IOI 2024上超越QwQ-32B和DeepSeek-R1。模型上下文长度32K，使用6T tokens训练，并采用宽松的MIT开源协议，代码已发布在Hugging Face。

Seed-Coder的前身是doubao-coder，采用Llama 3结构，参数量8.2B。团队提出“模型中心”数据处理方式，使用模型策划数据，从GitHub和网络档案中提取高质量代码数据，分为文件级、仓库级、Commit数据及代码相关网络数据四类。通过SHA256哈希和MinHash算法去重，结合Tree-sitter语法解析器和评分模型，最终构建了约1万亿个独特token的语料库。

Seed-Coder的预训练分两阶段：常规预训练和持续预训练。此外，团队开发了指令模型（-Instruct）和推理模型（-Reasoning）两个变体。字节Seed近期还开源了视频生成模型Seaweed、推理模型Seed-Thinking-v1.5及智能体UI-TARS，推动AI普惠和技术开放。

原文链接

本文链接：https://kx.umi6.com/article/18425.html

转载请注明文章出处

代码生成