首次披露！DeepSeek V3 发布软硬一体协同训练论文，公开“降成本”秘诀

2025-05-16 14:52:41

小阳哥

发布在

科普

阅读：740

标题：DeepSeek V3 发布软硬协同训练论文，揭秘低成本秘诀

近日，DeepSeek团队发布论文《洞察 DeepSeek-V3：规模的挑战和对AI架构硬件的思考》，探讨如何通过软硬件协同设计降低AI训练成本。论文指出，DeepSeek-V3仅需2048个NVIDIA H800 GPU便实现顶尖性能，展示了硬件资源的高效利用。

论文从模型设计、低精度驱动、互联优化及硬件架构等多个角度剖析DeepSeek-V3的核心技术。模型采用DeepSeek-MoE和多头潜在注意力（MLA）架构，通过FP8混合精度训练大幅削减内存消耗和计算成本。同时，引入多标记预测（MTP）框架，显著提升推理速度。

针对硬件限制，DeepSeek-V3优化了并行策略，避免张量并行（TP），采用增强的流水线并行（PP）和加速的专家并行（EP），并通过节点受限专家路由策略（Node-Limited Routing）优化通信效率。此外，论文提出多平面胖树（MPFT）网络架构，显著降低通信延迟与成本。

面对硬件瓶颈，团队建议未来硬件应支持更高精度累积、细粒度量化及动态带宽分配。同时，DRAM堆叠加速器和晶圆级系统集成等创新方案被寄予厚望，为AI系统性能突破提供了新思路。

原文链接

本文链接：https://kx.umi6.com/article/18668.html

转载请注明文章出处

Deepseek-v3

成本效益

软硬件协同设计

分享至

打开微信扫一扫

内容投诉

生成图片

小阳哥

649 文章

367873 浏览

24小时热文