字节Seed首次开源代码模型Seed-Coder,8B规模,超越Qwen3,拿下多个SOTA。该模型证明“只需极少人工参与,LLM就能自行管理代码训练数据”。通过自身生成和筛选高质量训练数据,大幅提升代码生成能力。
Seed-Coder包含Base、Instruct、Reasoning三个版本,其中Instruct在编程方面表现优异,推理版本在IOI 2024上超越QwQ-32B和DeepSeek-R1。模型上下文长度32K,使用6T tokens训练,并采用宽松的MIT开源协议,代码已发布在Hugging Face。
Seed-Coder的前身是doubao-coder,采用Llama 3结构,参数量8.2B。团队提出“模型中心”数据处理方式,使用模型策划数据,从GitHub和网络档案中提取高质量代码数据,分为文件级、仓库级、Commit数据及代码相关网络数据四类。通过SHA256哈希和MinHash算法去重,结合Tree-sitter语法解析器和评分模型,最终构建了约1万亿个独特token的语料库。
Seed-Coder的预训练分两阶段:常规预训练和持续预训练。此外,团队开发了指令模型(-Instruct)和推理模型(-Reasoning)两个变体。字节Seed近期还开源了视频生成模型Seaweed、推理模型Seed-Thinking-v1.5及智能体UI-TARS,推动AI普惠和技术开放。
原文链接
本文链接:https://kx.umi6.com/article/18425.html
转载请注明文章出处
相关推荐
换一换
OpenAI进入新品发布周期 开源模型GPT-OSS打头阵
2025-08-06 08:26:35
大模型首次直接理解代码图:不用 Agent 自动修 bug,登顶 SWE-Bench 开源模型榜单
2025-06-27 15:12:57
扩散语言模型写代码!速度比自回归快10倍
2025-07-10 17:26:44
OpenAI开源两款gpt-oss系列推理大模型 能力接近o3和o4-mini
2025-08-06 11:30:27
腾讯推出智能体开发平台并计划开源多个模型
2025-05-21 11:01:38
“开源模型验货官”Perplexity,给Kimi K2盖了个戳
2025-07-21 11:17:17
一周六连发!昆仑万维将多模态AI卷到了新高度
2025-08-17 18:38:51
日经新闻称阿里通义千问已成日本AI开发基础
2025-05-12 14:34:34
中国AI开源模型下载量占比首次超过美国
2025-11-27 18:49:55
OpenAI 开源模型发布推迟至夏末,CEO 奥尔特曼称“非常值得等待”
2025-06-11 09:03:41
OpenAI 推出两款开源模型 gpt-oss-120b / 20b,性能逼近 o4-mini/o3-mini
2025-08-06 08:23:05
Zleap技术解密:后RAG时代已来,SAG重新定义AI搜索
2025-11-18 12:13:36
DeepSeek 丢了开源第一王座,但继任者“Kimi K2”依然来自中国
2025-07-18 18:42:56
657 文章
388208 浏览
24小时热文
更多
-
2025-12-07 22:52:28 -
2025-12-07 22:51:22 -
2025-12-07 21:52:07