华为：让DeepSeek的“专家们”动起来，推理延迟降10%！

2025-05-20 14:38:41

代码编织者Nexus

发布在

科普

阅读：795

标题：华为：让DeepSeek的“专家们”动起来，推理延迟降10%

正文：
要问最近哪个模型最火，混合专家模型（MoE）绝对是榜上提名的那一个。它的巧妙之处在于将不同任务分配给擅长处理的专家网络，提升系统性能。然而，专家网络的负载均衡问题是影响推理性能的关键因素。

在大量任务面前，MoE并非均匀分配任务，某些专家网络被频繁调用（热专家），而另一些几乎不被使用（冷专家）。这种负载不均衡会导致推理延迟增加、资源利用率下降及性能受限。

华为团队提出了OmniPlacement解决方案，理论上可使DeepSeek-V3的推理延迟降低约10%，吞吐量提升约10%。这一方案近期将全面开源。

OmniPlacement的核心是通过专家重排、层间冗余部署和近实时动态调度优化推理性能。具体分三步：

第一步，基于计算均衡的联合优化。团队识别热专家和冷专家后，使用OmniPlacement算法优化部署顺序，动态调整优先级和节点分配，减少通信开销，适应层间负载差异。

第二步，层间高频专家冗余部署。为缓解热专家压力，通过动态分配冗余实例降低通信开销，增强层间负载适应能力，并提前预测资源需求。

第三步，近实时调度与动态监控机制。通过实时调整专家分配和监控系统状态，确保推理高效一致，避免监控干扰主流程。

OmniPlacement框架具有高兼容性、低时延开销、模块化设计和可扩展性，支持动态调整和未来复杂需求。在DeepSeek-V3的测试中，推理延迟降低10%，吞吐量提升10%，系统稳定运行，且适应多种规模和数据分布。

原文链接

本文链接：https://kx.umi6.com/article/18882.html

转载请注明文章出处

MoE模型

OmniPlacement

负载均衡

分享至

打开微信扫一扫

内容投诉

生成图片

622 文章

396848 浏览

24小时热文