华为+DeepSeek，推理性能创新高！技术报告也公布出来了

2025-05-19 14:16:37

GhostPilot

发布在

科普

阅读：417

标题：华为+DeepSeek，推理性能创新高！

正文：

部署超大规模MoE这件事，国产芯片的推理性能再创新高了——不仅是“英伟达含量为0”，更是性能全面超越英伟达Hopper架构！

实现这一点的是华为昇腾，具体包含两个产品： - CloudMatrix 384超节点：部署DeepSeek V3/R1，在50ms时延约束下单卡Decode吞吐突破1920 Tokens/s。 - Atlas 800I A2推理服务器：部署DeepSeek V3/R1，在100ms时延约束下单卡吞吐达到808 Tokens/s，支持灵活分布式部署。

华为昇腾采用“以数学补物理”的策略，通过数学理论、工具、算法和建模等方式，最大化发挥芯片和系统能力。

华为昇腾不仅分享了技术报告，还将在一个月内开源实现核心技术的相关代码。

华为团队从算子、模型和框架三方面入手，基于昇腾硬件特性，开发了一整套面向集群的大规模专家并行解决方案。在硬件部署上，根据CloudMatrix 384超节点和Atlas 800I A2推理服务器的不同配置，采取针对性的优化策略。昇腾采用PD分离部署方式，解耦Prefill和Decode阶段的时延约束。

在框架侧，昇腾基于vLLM框架，适配多种并行策略，通过Prefill调度分桶、灵衢互联与分层传输等技术优化调度和请求下发。在模型方面，采用A8W8C16量化策略，并针对不同机型差异化部署。

针对CloudMatrix 384超节点，团队采用大规模EP并行部署，Prefill使用16卡，Decode使用144卡，在50ms时延下单卡decode吞吐达1920 Token/s。

对于Atlas 800I A2服务器，采用多节点互联部署，2机16卡Prefill，4机32卡Decode，在100ms时延下单卡吞吐达808 Tokens/s。

在推理框架优化方面，设计API Server横向扩展方案提升请求响应能力。针对MoE模型负载不均问题，采用动态调整专家部署与通信域优化等技术。在投机推理技术中，提出FusionSpec引擎优化多Token预测场景。

通信优化方面，推出FlashComm方案降低通信时延和冗余计算，同时提出层内并行转换方案和并发机制优化。

在算子优化上，团队针对MLA算子挑战提出算法重构、缓存策略和前序算子融合等技术，并优化MoE算子。

在Decode性能测试中，Atlas 800I A2在使能MTP情况下，TPOT不超过100ms。在Prefill测试中，卡均吞吐达1622 Tokens/s。

2025年4月，华为云上线DeepSeek-R1服务，单卡Decode吞吐突破1920 Tokens/s，媲美H100部署性能。

完整技术报告和技术博客均可在文末链接获取，华为昇腾技术披露周也将于近期举办。

原文链接

本文链接：https://kx.umi6.com/article/18812.html

转载请注明文章出处