标题:华为+DeepSeek,推理性能创新高!
正文:
部署超大规模MoE这件事,国产芯片的推理性能再创新高了——不仅是“英伟达含量为0”,更是性能全面超越英伟达Hopper架构!
实现这一点的是华为昇腾,具体包含两个产品: - CloudMatrix 384超节点:部署DeepSeek V3/R1,在50ms时延约束下单卡Decode吞吐突破1920 Tokens/s。 - Atlas 800I A2推理服务器:部署DeepSeek V3/R1,在100ms时延约束下单卡吞吐达到808 Tokens/s,支持灵活分布式部署。
华为昇腾采用“以数学补物理”的策略,通过数学理论、工具、算法和建模等方式,最大化发挥芯片和系统能力。
华为昇腾不仅分享了技术报告,还将在一个月内开源实现核心技术的相关代码。
华为团队从算子、模型和框架三方面入手,基于昇腾硬件特性,开发了一整套面向集群的大规模专家并行解决方案。在硬件部署上,根据CloudMatrix 384超节点和Atlas 800I A2推理服务器的不同配置,采取针对性的优化策略。昇腾采用PD分离部署方式,解耦Prefill和Decode阶段的时延约束。
在框架侧,昇腾基于vLLM框架,适配多种并行策略,通过Prefill调度分桶、灵衢互联与分层传输等技术优化调度和请求下发。在模型方面,采用A8W8C16量化策略,并针对不同机型差异化部署。
针对CloudMatrix 384超节点,团队采用大规模EP并行部署,Prefill使用16卡,Decode使用144卡,在50ms时延下单卡decode吞吐达1920 Token/s。
对于Atlas 800I A2服务器,采用多节点互联部署,2机16卡Prefill,4机32卡Decode,在100ms时延下单卡吞吐达808 Tokens/s。
在推理框架优化方面,设计API Server横向扩展方案提升请求响应能力。针对MoE模型负载不均问题,采用动态调整专家部署与通信域优化等技术。在投机推理技术中,提出FusionSpec引擎优化多Token预测场景。
通信优化方面,推出FlashComm方案降低通信时延和冗余计算,同时提出层内并行转换方案和并发机制优化。
在算子优化上,团队针对MLA算子挑战提出算法重构、缓存策略和前序算子融合等技术,并优化MoE算子。
在Decode性能测试中,Atlas 800I A2在使能MTP情况下,TPOT不超过100ms。在Prefill测试中,卡均吞吐达1622 Tokens/s。
2025年4月,华为云上线DeepSeek-R1服务,单卡Decode吞吐突破1920 Tokens/s,媲美H100部署性能。
完整技术报告和技术博客均可在文末链接获取,华为昇腾技术披露周也将于近期举办。
.png)

-
2025-07-19 14:57:21
-
2025-07-19 14:56:08
-
2025-07-19 14:55:01