MoE推理 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

华为又开源了个大的：超大规模MoE推理秘籍

华为近日开源了超大规模MoE推理项目Omni-Infer，为解决大模型推理的高效与稳定问题提供了标准答案。该项目面向企业用户，提供PD分离部署方案、QPM系统级优化及商用硬件使用方法论，同时推动开发者社区发展。北京智源研究院、上海人工智能实验室和OpenI启智社区均表示支持，并期待生态合作。Omni-Infer由推理框架和加速套件组成，兼容主流框架如vLLM，具备智能调度、负载均衡、MoE优化等特性，提升推理效率。目前仅支持CloudMatrix384推理卡和Linux环境，通过Docker镜像安装，开箱即用。Omni-Infer还建立了专业开源社区，开放治理、会议、活动等信息，采用两级管理机制，主动适配国内开源项目，推动多方共赢。相关资源链接已公布，包括技术报告、代码仓库及社区页面。

原文链接