1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

MoE模型推理,几段代码就能稳稳搞定 | 开源

混合专家网络(MoE)已成为当前大模型主流架构之一。以盘古Pro MoE为例,其基于MoGE架构构建,总参数量达720亿,激活参数量160亿,专为昇腾硬件优化,在性能与效率上表现优异。

华为最新开源项目Omni-Infer,实现了对超大规模MoE模型推理的高效支持。它不仅在昇腾800I A2上单卡推理吞吐可达1148 tokens/s,经投机加速技术后更提升至1528 tokens/s,显著优于同规模稠密模型。

该项目包含两大核心:推理框架加速套件。前者兼容vLLM等主流框架,独立安装,降低维护成本;后者具备智能调度、负载均衡、资源动态分配等功能,大幅提升推理效率,并特别适配MoE模型特性。

使用环境方面,目前仅支持CloudMatrix384推理卡及Linux系统(Python 3.9–3.11),通过Docker镜像安装即可快速部署。少量代码即可完成PD分离自动化部署,实现高性能推理。

此外,Omni-Infer采用开放社区治理机制,设立项目管理委员会和兴趣小组,推动多方共建共赢。目前已接入多个国内AI开源项目,并积极参与国际开源生态建设。

相关链接:
- 技术报告与代码分析:ascend-inference-cluster
- 源码协作地址:omniinfer
- GitHub开源地址:omni-infer
- 社区治理信息:community

原文链接
本文链接:https://kx.umi6.com/article/21094.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
英伟达开源 9B 参数 AI 小模型 Nemotron Nano v2,比 Qwen3 快 6 倍
2025-08-19 15:01:14
月之暗面 Kimi K2 发布并开源,擅长代码与 Agentic 任务
2025-07-11 23:44:58
阿里通义深夜炸场:全球首个端到端全模态 AI 模型 Qwen3-Omni 发布开源,文本、图像、音视频全统一
2025-09-23 10:12:45
睿尔曼开源全球首个高质量、模态数量最多的真机数据集
2025-11-24 20:12:19
小米全面开源具身大模型MiMo-Embodied
2025-11-21 21:43:50
百度文心大模型4.5系列正式开源 同步开放API服务
2025-06-30 11:47:18
阿里云创始人王坚:人工智能时代将带来“计算卫星”
2025-09-11 15:59:12
对话Kimi付强:别把模型当宠物圈养,追逐AGI就要让模型与人类共同演化
2025-10-04 10:57:38
月之暗面杨植麟、周昕宇、吴育昕罕见回应一切:打假 460 万美元、调侃 OpenAI
2025-11-12 09:56:27
华为昇腾 0Day 支持 DeepSeek-V3.2-Exp,面向开发者开源所有推理代码和算子实现
2025-09-29 20:14:51
Claude 团队打开大模型“脑回路”,推出开源 LLM 思维可视化工具
2025-05-31 23:12:07
Hugging Face开源小参数模型SmolLM3
2025-07-09 07:58:36
北京人形开源最新VLM模型,推动具身智能再迈关键一步 !
2025-11-14 13:57:27
24小时热文
更多
扫一扫体验小程序