MoE模型推理,几段代码就能稳稳搞定 | 开源
混合专家网络(MoE)已成为当前大模型主流架构之一。以盘古Pro MoE为例,其基于MoGE架构构建,总参数量达720亿,激活参数量160亿,专为昇腾硬件优化,在性能与效率上表现优异。
华为最新开源项目Omni-Infer,实现了对超大规模MoE模型推理的高效支持。它不仅在昇腾800I A2上单卡推理吞吐可达1148 tokens/s,经投机加速技术后更提升至1528 tokens/s,显著优于同规模稠密模型。
该项目包含两大核心:推理框架和加速套件。前者兼容vLLM等主流框架,独立安装,降低维护成本;后者具备智能调度、负载均衡、资源动态分配等功能,大幅提升推理效率,并特别适配MoE模型特性。
使用环境方面,目前仅支持CloudMatrix384推理卡及Linux系统(Python 3.9–3.11),通过Docker镜像安装即可快速部署。少量代码即可完成PD分离自动化部署,实现高性能推理。
此外,Omni-Infer采用开放社区治理机制,设立项目管理委员会和兴趣小组,推动多方共建共赢。目前已接入多个国内AI开源项目,并积极参与国际开源生态建设。
相关链接:
- 技术报告与代码分析:ascend-inference-cluster
- 源码协作地址:omniinfer
- GitHub开源地址:omni-infer
- 社区治理信息:community
原文链接
本文链接:https://kx.umi6.com/article/21094.html
转载请注明文章出处
相关推荐
换一换
行业首个 100% 开源的企业级智能体,京东云开源 JoyAgent
2025-07-26 11:37:17
性能比肩 Gemini-2.5 pro、o4-mini:阿里通义千问 Qwen 3 推理模型超级进化,现已开源
2025-07-26 00:31:49
北京人形机器人创新中心开源Pelican-VL 1.0模型
2025-11-13 21:24:03
小米开源首个原生端到端语音大模型
2025-09-19 10:10:03
对话Kimi付强:别把模型当宠物圈养,追逐AGI就要让模型与人类共同演化
2025-10-04 10:57:38
英伟达一口气开源多项机器人技术,与迪士尼合作的物理引擎也开源
2025-10-02 12:10:18
DeepMind 没舍得开源的 Genie 3,被昆仑万维放出来了
2025-08-12 14:22:32
字节跳动扣子 Coze 宣布开源:采用 Apache 2.0 许可证,支持商用
2025-07-26 15:40:54
抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o
2025-10-14 12:13:47
GitHub一周2000星!国产统一图像生成模型神器升级,理解质量双up,还学会了“反思”
2025-07-03 13:21:28
阿里云通义千问 Qwen3-Coder 宣布开源:480B 参数、原生支持 256K 上下文,可与 Claude Sonnet4 媲美
2025-07-23 08:44:56
腾讯混元世界模型 1.1 版本发布并开源:单卡即可部署,秒级创造 3D 世界
2025-10-22 18:50:23
小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio,对话自然度、交互适配达拟人化水准
2025-09-19 11:13:29
645 文章
433068 浏览
24小时热文
更多
-
2026-01-23 06:34:26 -
2026-01-23 00:20:44 -
2026-01-22 23:18:34