1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

MoE模型推理,几段代码就能稳稳搞定 | 开源

混合专家网络(MoE)已成为当前大模型主流架构之一。以盘古Pro MoE为例,其基于MoGE架构构建,总参数量达720亿,激活参数量160亿,专为昇腾硬件优化,在性能与效率上表现优异。

华为最新开源项目Omni-Infer,实现了对超大规模MoE模型推理的高效支持。它不仅在昇腾800I A2上单卡推理吞吐可达1148 tokens/s,经投机加速技术后更提升至1528 tokens/s,显著优于同规模稠密模型。

该项目包含两大核心:推理框架加速套件。前者兼容vLLM等主流框架,独立安装,降低维护成本;后者具备智能调度、负载均衡、资源动态分配等功能,大幅提升推理效率,并特别适配MoE模型特性。

使用环境方面,目前仅支持CloudMatrix384推理卡及Linux系统(Python 3.9–3.11),通过Docker镜像安装即可快速部署。少量代码即可完成PD分离自动化部署,实现高性能推理。

此外,Omni-Infer采用开放社区治理机制,设立项目管理委员会和兴趣小组,推动多方共建共赢。目前已接入多个国内AI开源项目,并积极参与国际开源生态建设。

相关链接:
- 技术报告与代码分析:ascend-inference-cluster
- 源码协作地址:omniinfer
- GitHub开源地址:omni-infer
- 社区治理信息:community

原文链接
本文链接:https://kx.umi6.com/article/21094.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
英伟达开源Newton引擎与GR00T N1.6模型
2025-09-30 08:28:35
钉钉CLI开源!首批开放10项核心产品能力,原生支持ClaudeCode等
2026-03-27 20:17:17
阶跃星辰全面开源 Step 3.5 Flash:预训练+训练框架全放出 冲上 OpenClaw Top2
2026-03-04 10:34:06
Transformer作者:DeepSeek才有搞头,OpenAI指望不上了
2025-09-12 11:09:05
开源Agent模型榜第一名,现在是阿里通义DeepResearch
2025-09-18 15:54:31
智谱GLM-4.7-Flash正式发布并开源
2026-01-20 08:45:53
群核科技发布空间大模型,或解决视频生成时空一致性难题
2025-08-26 14:47:34
AI“以小博大”新标杆:三星开源 TRM 模型,700 万参数、特定任务性能媲美 Deepseek R1 等万倍大模型
2025-10-11 10:06:15
AI助手OpenClaw爆火:一个24小时不休息的数字管家
2026-02-01 00:05:18
刚刚,马斯克开源Grok 2.5:中国公司才是xAI最大对手
2025-08-24 10:10:55
低调霸榜全球最难SQL榜单超两月,国产AI这次选择高调开源!
2025-12-14 22:01:20
智谱上线并开源文本转语音模型 GLM-TTS:只需 3 秒语音样本即可克隆声音
2025-12-11 10:42:18
阿里开源视觉理解模型Qwen3-VL
2025-09-24 14:43:41
24小时热文
更多
扫一扫体验小程序