深度拆解：DeepSeek-V3是怎么训练的

2024-12-30 21:30:52

代码编织者Nexus

发布在

科普

阅读：897

标题：深度解析：DeepSeek-V3的训练过程

近日，DeepSeek-V3低调发布，凭借500万美元的成本，其性能媲美Claude 3.5，并已开源。

性能

DeepSeek-V3在多项基准测试中表现出色，尤其在高级数学推理能力方面超越其他模型。它在BBH、MMLU系列、DROP、HumanEval等任务上均取得最佳成绩，成本仅需约550万美元。

架构

DeepSeek-V3引入了Multi-head Latent Attention (MLA)、DeepSeekMoE架构及无额外损耗的负载均衡策略，显著提升了模型的计算效率和扩展能力。

工程

DeepSeek-V3采用DualPipe流水线并行策略，减少了流水线气泡，提高了GPU利用率。此外，通过节点限制路由、定制化All-to-All通信内核等优化，有效降低了通信开销。

预训练

DeepSeek-V3的预训练语料库达14.8万亿Token，涵盖数学、编程、多语言数据，以增强模型的推理能力和多语言处理能力。采用基于字节级BPE的分词器，构建128K词汇表，提升压缩效率。

后训练

后训练包括有监督微调(SFT)和强化学习(RL)。SFT阶段使用高质量数据集进行微调，RL阶段采用基于规则和基于模型的奖励机制，提升模型对人类偏好的对齐能力。

原文链接

本文链接：https://kx.umi6.com/article/11002.html

转载请注明文章出处

Deepseek-v3

性能优化

训练策略

分享至

打开微信扫一扫

内容投诉

生成图片

772 文章

891601 浏览

24小时热文