字节Seed首次开源代码模型Seed-Coder,8B规模,超越Qwen3,拿下多个SOTA。该模型证明“只需极少人工参与,LLM就能自行管理代码训练数据”。通过自身生成和筛选高质量训练数据,大幅提升代码生成能力。
Seed-Coder包含Base、Instruct、Reasoning三个版本,其中Instruct在编程方面表现优异,推理版本在IOI 2024上超越QwQ-32B和DeepSeek-R1。模型上下文长度32K,使用6T tokens训练,并采用宽松的MIT开源协议,代码已发布在Hugging Face。
Seed-Coder的前身是doubao-coder,采用Llama 3结构,参数量8.2B。团队提出“模型中心”数据处理方式,使用模型策划数据,从GitHub和网络档案中提取高质量代码数据,分为文件级、仓库级、Commit数据及代码相关网络数据四类。通过SHA256哈希和MinHash算法去重,结合Tree-sitter语法解析器和评分模型,最终构建了约1万亿个独特token的语料库。
Seed-Coder的预训练分两阶段:常规预训练和持续预训练。此外,团队开发了指令模型(-Instruct)和推理模型(-Reasoning)两个变体。字节Seed近期还开源了视频生成模型Seaweed、推理模型Seed-Thinking-v1.5及智能体UI-TARS,推动AI普惠和技术开放。
原文链接
本文链接:https://kx.umi6.com/article/18425.html
转载请注明文章出处
相关推荐
换一换
杨植麟被梁文锋叫醒了!Kimi新模型发布即开源,1T参数全线SOTA
2025-07-12 13:50:53
刚刚,OpenAI发布2款开源模型,手机笔记本也能跑,北大校友扛大旗
2025-08-06 07:23:51
Qwen又立功,全球最快开源模型诞生,超2000 tokens/秒!
2025-09-10 19:40:11
OpenAI开源两款gpt-oss系列推理大模型 能力接近o3和o4-mini
2025-08-06 11:30:27
超越 OpenAI 医疗能力全球登顶,百川发布开源 AI 大模型 Baichuan-M2
2025-08-11 14:01:35
倪光南院士:报告显示 80% 的美国 AI 创新企业使用中国开源模型
2025-11-14 11:53:25
开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!
2026-01-08 19:25:43
中国AI模型崛起!已拿下全球15%份额:一年前才1%
2026-01-19 17:05:01
95后小伙手搓AI眼镜:盲道、红绿灯都可认出 成本仅百元
2025-10-24 12:39:22
消息称智谱 GLM-4.5 今晚开源新模型,知情人士回应确有其事
2025-07-28 16:20:04
“开源模型验货官”Perplexity,给Kimi K2盖了个戳
2025-07-21 11:17:17
aiXcoder:AI并非软件开发的“银弹”,需与软件工程结合
2025-12-24 17:52:13
美国“SPAC之王”查马斯:公司已转用Kimi K2
2025-10-11 19:32:28
707 文章
470422 浏览
24小时热文
更多
-
2026-01-22 22:15:16 -
2026-01-22 22:14:12 -
2026-01-22 21:11:56