1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:华为+DeepSeek,推理性能创新高!

正文:

部署超大规模MoE这件事,国产芯片的推理性能再创新高了——不仅是“英伟达含量为0”,更是性能全面超越英伟达Hopper架构!

实现这一点的是华为昇腾,具体包含两个产品: - CloudMatrix 384超节点:部署DeepSeek V3/R1,在50ms时延约束下单卡Decode吞吐突破1920 Tokens/s。 - Atlas 800I A2推理服务器:部署DeepSeek V3/R1,在100ms时延约束下单卡吞吐达到808 Tokens/s,支持灵活分布式部署。

华为昇腾采用“以数学补物理”的策略,通过数学理论、工具、算法和建模等方式,最大化发挥芯片和系统能力。

华为昇腾不仅分享了技术报告,还将在一个月内开源实现核心技术的相关代码。

华为团队从算子、模型和框架三方面入手,基于昇腾硬件特性,开发了一整套面向集群的大规模专家并行解决方案。在硬件部署上,根据CloudMatrix 384超节点和Atlas 800I A2推理服务器的不同配置,采取针对性的优化策略。昇腾采用PD分离部署方式,解耦Prefill和Decode阶段的时延约束。

在框架侧,昇腾基于vLLM框架,适配多种并行策略,通过Prefill调度分桶、灵衢互联与分层传输等技术优化调度和请求下发。在模型方面,采用A8W8C16量化策略,并针对不同机型差异化部署。

针对CloudMatrix 384超节点,团队采用大规模EP并行部署,Prefill使用16卡,Decode使用144卡,在50ms时延下单卡decode吞吐达1920 Token/s。

对于Atlas 800I A2服务器,采用多节点互联部署,2机16卡Prefill,4机32卡Decode,在100ms时延下单卡吞吐达808 Tokens/s。

在推理框架优化方面,设计API Server横向扩展方案提升请求响应能力。针对MoE模型负载不均问题,采用动态调整专家部署与通信域优化等技术。在投机推理技术中,提出FusionSpec引擎优化多Token预测场景。

通信优化方面,推出FlashComm方案降低通信时延和冗余计算,同时提出层内并行转换方案和并发机制优化。

在算子优化上,团队针对MLA算子挑战提出算法重构、缓存策略和前序算子融合等技术,并优化MoE算子。

在Decode性能测试中,Atlas 800I A2在使能MTP情况下,TPOT不超过100ms。在Prefill测试中,卡均吞吐达1622 Tokens/s。

2025年4月,华为云上线DeepSeek-R1服务,单卡Decode吞吐突破1920 Tokens/s,媲美H100部署性能。

完整技术报告和技术博客均可在文末链接获取,华为昇腾技术披露周也将于近期举办。

原文链接
本文链接:https://kx.umi6.com/article/18812.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
通义千问 Qwen 2.5-Max 超大规模 MoE 模型号称优于 Deepseek V3 等竞品,暂未开源
2025-01-29 03:58:28
华为:让DeepSeek的“专家们”动起来,推理延迟降10%!
2025-05-20 14:38:41
中国云巨头及数据中心禁用国外AI芯片:只能国产 首选华为昇腾
2025-11-13 12:01:41
华为昇腾在列!中国两大AI联盟成立:推动本土生态系、降低对美国依赖
2025-07-30 14:45:43
马斯克 xAI 最具性价比 AI 模型 Grok 4 Fast 登场:Grok 4 级性能,价格降低 98%
2025-09-20 12:27:10
华为昇腾 0Day 支持 DeepSeek-V3.2-Exp,面向开发者开源所有推理代码和算子实现
2025-09-29 20:14:51
英伟达“超神”的背后:AI厂商迫切地在MoE模型上寻求算力新解法
2024-06-20 20:26:57
华为昇腾 384 超节点 Atlas 900 SuperPoD 被评选为本次 WAIC 2025 镇馆之宝
2025-07-28 12:10:28
猎豹移动发布全新AI数据宝和MoE模型,傅盛:明年将是AI应用繁荣的一年
2024-11-28 14:31:52
中国最大开源MoE模型,255B参数无条件免费商用,元象发布
2024-09-15 22:56:05
华为昇腾、寒武纪、海光信息适配DeepSeek最新模型
2025-09-30 09:26:21
华为昇腾适配支持 DeepSeek-R1 复现项目 Open R1
2025-02-11 18:59:29
DeepSeek扔的第二枚开源王炸到底是什么?
2025-02-25 20:07:11
24小时热文
更多
扫一扫体验小程序