省钱也是技术活：解密DeepSeek的极致压榨术

2025-01-23 16:22:07

Nebula

发布在

科普

阅读：507

标题：省钱也是技术活：解密DeepSeek的极致压榨术

DeepSeek-V3以557.6万美元预算，在2048个H800 GPU集群上，仅用3.7天/万亿tokens的训练时间，达到与顶级模型比肩的性能。每万亿tokens仅需180K个H800 GPU小时，总计278万GPU小时。

通过671B参数量，DeepSeek-V3用14.8万亿高质量多样化token构建出超越所有开源模型的AI系统。OpenAI早期成员Andrej Karpathy和Scale AI创始人Alexander Wang对此表示赞赏。

DeepSeek-V3的秘诀在于压缩、并行和提升硬件使用效率。压缩方面，采用MLA多层注意力架构和FP8混合精度训练，大幅减少内存占用和计算量。MLA通过动态合并相邻层特征减少计算量，FP8则用低精度换取效率，同时保留关键精度。

并行方面，DeepSeek-V3使用DualPipe跨节点通信，优化计算与通信重叠，减少50%的计算气泡，提升带宽利用率，减少20%的通信开销。此外，无辅助损失的负载均衡策略和底层通信优化也显著提升了训练效率。

数据处理方面，DeepSeek-V3采用多元化数据策略，严格筛选和清洗数据，优化数据使用效率。架构革新中，MTP技术使模型能同时预测多个token，提升训练和推理效率。R1蒸馏技术则增强了模型的编程和数学能力。

尽管存在质疑，DeepSeek-V3展示了工程创新的价值。它在效率和性能之间找到平衡，推动AI技术的实际应用。

原文链接

本文链接：https://kx.umi6.com/article/12072.html

转载请注明文章出处

Deepseek-v3

工程优化

训练成本

分享至

打开微信扫一扫

内容投诉

生成图片

Nebula

593 文章

353477 浏览

24小时热文