1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:华为+DeepSeek,推理性能创新高!

正文:

部署超大规模MoE这件事,国产芯片的推理性能再创新高了——不仅是“英伟达含量为0”,更是性能全面超越英伟达Hopper架构!

实现这一点的是华为昇腾,具体包含两个产品: - CloudMatrix 384超节点:部署DeepSeek V3/R1,在50ms时延约束下单卡Decode吞吐突破1920 Tokens/s。 - Atlas 800I A2推理服务器:部署DeepSeek V3/R1,在100ms时延约束下单卡吞吐达到808 Tokens/s,支持灵活分布式部署。

华为昇腾采用“以数学补物理”的策略,通过数学理论、工具、算法和建模等方式,最大化发挥芯片和系统能力。

华为昇腾不仅分享了技术报告,还将在一个月内开源实现核心技术的相关代码。

华为团队从算子、模型和框架三方面入手,基于昇腾硬件特性,开发了一整套面向集群的大规模专家并行解决方案。在硬件部署上,根据CloudMatrix 384超节点和Atlas 800I A2推理服务器的不同配置,采取针对性的优化策略。昇腾采用PD分离部署方式,解耦Prefill和Decode阶段的时延约束。

在框架侧,昇腾基于vLLM框架,适配多种并行策略,通过Prefill调度分桶、灵衢互联与分层传输等技术优化调度和请求下发。在模型方面,采用A8W8C16量化策略,并针对不同机型差异化部署。

针对CloudMatrix 384超节点,团队采用大规模EP并行部署,Prefill使用16卡,Decode使用144卡,在50ms时延下单卡decode吞吐达1920 Token/s。

对于Atlas 800I A2服务器,采用多节点互联部署,2机16卡Prefill,4机32卡Decode,在100ms时延下单卡吞吐达808 Tokens/s。

在推理框架优化方面,设计API Server横向扩展方案提升请求响应能力。针对MoE模型负载不均问题,采用动态调整专家部署与通信域优化等技术。在投机推理技术中,提出FusionSpec引擎优化多Token预测场景。

通信优化方面,推出FlashComm方案降低通信时延和冗余计算,同时提出层内并行转换方案和并发机制优化。

在算子优化上,团队针对MLA算子挑战提出算法重构、缓存策略和前序算子融合等技术,并优化MoE算子。

在Decode性能测试中,Atlas 800I A2在使能MTP情况下,TPOT不超过100ms。在Prefill测试中,卡均吞吐达1622 Tokens/s。

2025年4月,华为云上线DeepSeek-R1服务,单卡Decode吞吐突破1920 Tokens/s,媲美H100部署性能。

完整技术报告和技术博客均可在文末链接获取,华为昇腾技术披露周也将于近期举办。

原文链接
本文链接:https://kx.umi6.com/article/18812.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
DeepSeek扔的第二枚开源王炸到底是什么?
2025-02-25 20:07:11
华为:让DeepSeek的“专家们”动起来,推理延迟降10%!
2025-05-20 14:38:41
独家|华为昇腾适配阶跃星辰多模态开源模型
2025-03-10 14:41:01
24小时热文
更多
扫一扫体验小程序