MoE模型推理,几段代码就能稳稳搞定 | 开源
混合专家网络(MoE)已成为当前大模型主流架构之一。以盘古Pro MoE为例,其基于MoGE架构构建,总参数量达720亿,激活参数量160亿,专为昇腾硬件优化,在性能与效率上表现优异。
华为最新开源项目Omni-Infer,实现了对超大规模MoE模型推理的高效支持。它不仅在昇腾800I A2上单卡推理吞吐可达1148 tokens/s,经投机加速技术后更提升至1528 tokens/s,显著优于同规模稠密模型。
该项目包含两大核心:推理框架和加速套件。前者兼容vLLM等主流框架,独立安装,降低维护成本;后者具备智能调度、负载均衡、资源动态分配等功能,大幅提升推理效率,并特别适配MoE模型特性。
使用环境方面,目前仅支持CloudMatrix384推理卡及Linux系统(Python 3.9–3.11),通过Docker镜像安装即可快速部署。少量代码即可完成PD分离自动化部署,实现高性能推理。
此外,Omni-Infer采用开放社区治理机制,设立项目管理委员会和兴趣小组,推动多方共建共赢。目前已接入多个国内AI开源项目,并积极参与国际开源生态建设。
相关链接:
- 技术报告与代码分析:ascend-inference-cluster
- 源码协作地址:omniinfer
- GitHub开源地址:omni-infer
- 社区治理信息:community
原文链接
本文链接:https://kx.umi6.com/article/21094.html
转载请注明文章出处
相关推荐
.png)
换一换
32B 稠密模型推理能力超越 R1?秘密 AI 团队发布推理小模型 AM-Thinking-v1
2025-05-16 14:53:48
Hugging Face 桌面机器人 Reachy Mini 开订:长相呆萌,支持超 170 万个 AI 模型
2025-07-09 16:06:14
百度正式开源文心大模型 4.5 系列模型
2025-06-30 11:41:55
百度文心大模型4.5系列正式开源 同步开放API服务
2025-06-30 11:47:18
超越DeepSeek,中国开源「集团军」正重塑全球AI生态
2025-04-28 13:51:06
腾讯混元视频生成工具HunyuanCustom宣布开源
2025-05-09 12:48:35
阶跃星辰开源 3D 大模型 Step1X-3D,可生成高保真、可控的 3D 内容
2025-05-14 17:24:10
Claude 团队打开大模型“脑回路”,推出开源 LLM 思维可视化工具
2025-05-31 23:12:07
Meta、微软掌门人最新对谈:AI浪潮带来软件开发革命
2025-05-07 16:17:03
昆仑万维发布并开源Matrix-Game 2.0模型
2025-08-12 10:17:03
1.5B参数撬动“吉卜力级”全能体验,国产开源之光多模态统一模型,来了
2025-07-30 12:43:45
华为又开源了个大的:超大规模MoE推理秘籍
2025-07-01 13:54:16
阿里云通义千问 Qwen3-Coder 宣布开源:480B 参数、原生支持 256K 上下文,可与 Claude Sonnet4 媲美
2025-07-23 08:44:56
494 文章
186854 浏览
24小时热文
更多

-
2025-09-07 21:49:50
-
2025-09-07 20:50:36
-
2025-09-07 20:49:25