MoE模型推理,几段代码就能稳稳搞定 | 开源
混合专家网络(MoE)已成为当前大模型主流架构之一。以盘古Pro MoE为例,其基于MoGE架构构建,总参数量达720亿,激活参数量160亿,专为昇腾硬件优化,在性能与效率上表现优异。
华为最新开源项目Omni-Infer,实现了对超大规模MoE模型推理的高效支持。它不仅在昇腾800I A2上单卡推理吞吐可达1148 tokens/s,经投机加速技术后更提升至1528 tokens/s,显著优于同规模稠密模型。
该项目包含两大核心:推理框架和加速套件。前者兼容vLLM等主流框架,独立安装,降低维护成本;后者具备智能调度、负载均衡、资源动态分配等功能,大幅提升推理效率,并特别适配MoE模型特性。
使用环境方面,目前仅支持CloudMatrix384推理卡及Linux系统(Python 3.9–3.11),通过Docker镜像安装即可快速部署。少量代码即可完成PD分离自动化部署,实现高性能推理。
此外,Omni-Infer采用开放社区治理机制,设立项目管理委员会和兴趣小组,推动多方共建共赢。目前已接入多个国内AI开源项目,并积极参与国际开源生态建设。
相关链接:
- 技术报告与代码分析:ascend-inference-cluster
- 源码协作地址:omniinfer
- GitHub开源地址:omni-infer
- 社区治理信息:community
原文链接
本文链接:https://kx.umi6.com/article/21094.html
转载请注明文章出处
相关推荐
换一换
华为、中国移动、联通等宣布 openFuyao 开源发布,将致力于提供多样化算力集群软件生态
2025-05-26 21:49:09
微软将开源 GitHub Copilot Chat 扩展,推动 VS Code 成开源 AI 编辑器
2025-05-20 15:43:49
阿里通义深夜炸场:全球首个端到端全模态 AI 模型 Qwen3-Omni 发布开源,文本、图像、音视频全统一
2025-09-23 10:12:45
抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o
2025-10-14 12:13:47
智谱视觉推理模型 GLM-4.5V 上线并开源,号称“全球 100B 级效果最佳”
2025-08-11 23:10:30
蚂蚁发布并开源万亿参数思考模型Ring-1T
2025-10-14 17:25:02
英伟达开源 9B 参数 AI 小模型 Nemotron Nano v2,比 Qwen3 快 6 倍
2025-08-19 15:01:14
小米多模态大模型 MiMo-VL 开源,官方称多方面领先 Qwen2.5-VL-7B
2025-05-30 16:57:55
阶跃星辰开源 3D 大模型 Step1X-3D,可生成高保真、可控的 3D 内容
2025-05-14 17:24:10
小扎改口不开源,Meta股价暴涨12%
2025-08-01 08:56:20
阿里云通义千问开源 Qwen3-VL-30B-A3B 模型:智能体任务等领域媲美 GPT-5-Mini
2025-10-04 14:01:20
1.5B参数撬动“吉卜力级”全能体验,国产开源之光多模态统一模型,来了
2025-07-30 12:43:45
昆仑万维发布并开源Matrix-Game 2.0模型
2025-08-12 10:17:03
540 文章
264805 浏览
24小时热文
更多
-
2025-10-24 09:34:47 -
2025-10-24 09:33:43 -
2025-10-24 09:32:35