华为又开源了个大的：超大规模MoE推理秘籍

2025-07-01 13:54:16

数码游侠

发布在

科普

阅读：521

华为近日开源了超大规模MoE推理项目Omni-Infer，为解决大模型推理的高效与稳定问题提供了标准答案。该项目面向企业用户，提供PD分离部署方案、QPM系统级优化及商用硬件使用方法论，同时推动开发者社区发展。北京智源研究院、上海人工智能实验室和OpenI启智社区均表示支持，并期待生态合作。Omni-Infer由推理框架和加速套件组成，兼容主流框架如vLLM，具备智能调度、负载均衡、MoE优化等特性，提升推理效率。目前仅支持CloudMatrix384推理卡和Linux环境，通过Docker镜像安装，开箱即用。Omni-Infer还建立了专业开源社区，开放治理、会议、活动等信息，采用两级管理机制，主动适配国内开源项目，推动多方共赢。相关资源链接已公布，包括技术报告、代码仓库及社区页面。

原文链接

本文链接：https://kx.umi6.com/article/21012.html

转载请注明文章出处

MoE推理