字节Seed首次开源代码模型Seed-Coder,8B规模,超越Qwen3,拿下多个SOTA。该模型证明“只需极少人工参与,LLM就能自行管理代码训练数据”。通过自身生成和筛选高质量训练数据,大幅提升代码生成能力。
Seed-Coder包含Base、Instruct、Reasoning三个版本,其中Instruct在编程方面表现优异,推理版本在IOI 2024上超越QwQ-32B和DeepSeek-R1。模型上下文长度32K,使用6T tokens训练,并采用宽松的MIT开源协议,代码已发布在Hugging Face。
Seed-Coder的前身是doubao-coder,采用Llama 3结构,参数量8.2B。团队提出“模型中心”数据处理方式,使用模型策划数据,从GitHub和网络档案中提取高质量代码数据,分为文件级、仓库级、Commit数据及代码相关网络数据四类。通过SHA256哈希和MinHash算法去重,结合Tree-sitter语法解析器和评分模型,最终构建了约1万亿个独特token的语料库。
Seed-Coder的预训练分两阶段:常规预训练和持续预训练。此外,团队开发了指令模型(-Instruct)和推理模型(-Reasoning)两个变体。字节Seed近期还开源了视频生成模型Seaweed、推理模型Seed-Thinking-v1.5及智能体UI-TARS,推动AI普惠和技术开放。
原文链接
本文链接:https://kx.umi6.com/article/18425.html
转载请注明文章出处
相关推荐
换一换
最强编程“大脑”:OpenAI 开放 GPT-5.2-Codex API,实战连续一周狂写 300+ 万行代码
2026-01-16 08:22:05
蚂蚁集团发布万亿参数旗舰模型 Ling-1T 并开源,多项指标位居开源模型榜首
2025-10-11 09:36:05
腾讯混元 0.5B、1.8B、4B、7B 模型开源发布,消费级显卡即可运行
2025-08-04 15:58:47
刚刚,OpenAI发布2款开源模型,手机笔记本也能跑,北大校友扛大旗
2025-08-06 07:23:51
LeCun团队开源首个代码世界模型:能生成代码还能自测自修!传统编程模型一夜成古典
2025-09-25 10:58:45
具身开源模型新王!千寻Spirit v1.5模型登顶 RoboChallenge,终结 Pi0.5领跑时代
2026-01-12 16:41:44
最强开源大模型除夕登场!397B参数千问3.5超越Gemini 3,百万Tokens低至8毛
2026-02-16 19:34:51
全球开源大模型杭州霸榜被终结,上海Minimax M2发布即爆单,百万Tokens仅需8元人民币
2025-10-28 10:42:58
持续拥抱开源 腾讯混元一口气开源四款小尺寸模型 最小仅0.5B
2025-08-04 18:06:55
大模型年终观察,如何定义2025年的「好模型」?
2025-12-22 21:00:44
微博自研VibeThinker开源模型:训练成本仅7800美元
2025-11-18 15:27:09
超越 OpenAI 医疗能力全球登顶,百川发布开源 AI 大模型 Baichuan-M2
2025-08-11 14:01:35
Moltbot作者被Claude刁难后:MiniMax M2.1是最优秀的开源模型
2026-01-29 14:21:07
803 文章
717483 浏览
24小时热文
更多
-
2026-06-08 23:49:41 -
2026-06-08 21:46:02 -
2026-06-08 19:42:13