MoE - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

KTransformers入选计算机系统顶会、与主流框架合作，趋境&清华让「异构」成为推理新范式

2025年10月，KTransformers项目论文入选计算机系统顶会SOSP 2025，并与主流推理框架SGLang达成合作。该项目由趋境科技与清华大学KVCache.AI团队联合研发，是一款高性能异构推理框架，专注于CPU+GPU协同执行，显著降低大模型推理的硬件门槛。其核心创新包括底层算子优化、NUMA感知张量并行和专家延迟机制（Expert Deferral），使单机环境可高效运行超大规模模型如DeepSeek-V3-671B。此次与SGLang的合作实现了全GPU推理与异构推理的融合，为开发者提供更灵活的硬件选择。目前，KTransformers已在GitHub获得15.2K Star，被多个主流大模型及厂商推荐使用，致力于推动算力普惠与AI基础设施的普及。

原文链接

数码游侠

10-23 10:01:08

KTransformers

MoE模型

异构推理

分享至

打开微信扫一扫

内容投诉

生成图片

2025外滩大会：蚂蚁、人大发布首个原生MoE扩散语言模型，将于近期开源

9月11日，2025外滩大会上，蚂蚁集团与中国人民大学联合发布业界首个原生MoE架构扩散语言模型LLaDA-MoE。该模型在约20T数据上完成训练，性能超越此前稠密扩散语言模型LLaDA1.0/1.5和Dream-7B，接近自回归模型Qwen2.5-3B-Instruct，并具备数倍推理速度优势。模型通过非自回归掩码扩散机制，挑战“语言模型必须自回归”的主流认知，在代码、数学等任务中表现优异。蚂蚁集团表示，模型及自研推理框架将于近期完全开源，推动全球AI社区技术发展。此外，蚂蚁将持续投入AGI领域，探索基于dLLM的未来突破路径。

原文链接

数据炼金师

09-12 10:08:55

LLaDA-MoE

开源

扩散语言模型

分享至

打开微信扫一扫

内容投诉

生成图片

阿里云发布通义 Qwen3-Next 基础模型架构并开源 80B-A3B 系列：改进混合注意力机制、高稀疏度 MoE 结构

9月12日，阿里云通义团队发布下一代基础模型架构Qwen3-Next，并开源80B-A3B系列模型。新架构通过改进混合注意力机制、高稀疏度MoE结构及多token预测机制，显著提升长上下文和大规模参数下的训练与推理效率。Qwen3-Next-80B-A3B模型拥有800亿参数（激活30亿），支持262K上下文，可外推至101万tokens，性能接近或超越前代模型，而训练成本仅为十分之一，推理吞吐提升十倍以上。Instruct版在评测中接近Qwen3-235B，Thinking版在部分任务上超越Gemini-2.5-Flash-Thinking。模型权重已以Apache-2.0许可发布，可通过Hugging Face、Transformers等框架部署，同时上线第三方平台OpenRouter。

原文链接

Journeyman

09-12 07:06:19

混合注意力机制

通义Qwen3-Next

高稀疏度MoE结构

分享至

打开微信扫一扫

内容投诉

生成图片

阿里开源电影级视频生成模型通义万相2.2

7月28日，阿里开源电影级视频生成模型通义万相2.2。该模型单次可生成5秒高清视频，包含文生视频、图生视频和统一视频生成三款模型。其中，文生视频和图生视频模型为业界首个采用MoE架构的视频生成模型，总参数量27B，激活参数14B，由高噪声专家模型和低噪声专家模型组成，分别负责视频布局与细节优化，在同参数规模下节省约50%计算资源。这一发布展现了阿里在AI视频生成领域的技术突破。（记者黄心怡）

原文链接

虚拟织梦者

07-28 21:20:36

MoE架构

视频生成模型

通义万相

分享至

打开微信扫一扫

内容投诉

生成图片

“狠人”闫俊杰，闯关IPO

6月17日，MiniMax发布全球首个开源大规模混合架构推理模型M1，创始人闫俊杰称‘大山不是不能翻越’。M1通过闪电注意力机制和强化学习算法CISPO实现高效推理，仅用512块H800三周完成训练。随后4天内，公司连续推出视频生成模型、智能体等多款产品。资本市场方面，MiniMax被曝正考虑港股IPO，此前已积累十几亿美元现金储备，近期完成Pre-IPO融资。公司成立于2022年，专注MoE架构研发，曾将80%算力投入此技术路线。尽管其M1模型未引发轰动，业内对其探索路径评价积极。面对DeepSeek竞争，MiniMax坚持自研底层模型，海外应用则选择接入DeepSeek。

原文链接

未来编码者

07-11 13:37:48

MiniMax

MoE模型

闫俊杰

分享至

打开微信扫一扫

内容投诉

生成图片

上海AI公司开源模型登上全球第二

6月17日，上海AI公司MiniMax发布全球首个开源大规模混合架构推理模型MiniMax-M1，在权威评测榜单位列全球开源模型第二。M1支持100万token上下文输入，输出长度达8万token，性能和性价比均表现突出。此后4个工作日，MiniMax接连推出视频生成模型Hailuo 02、智能体产品及音色设计工具。Hailuo 02在物理世界规律理解方面表现出色，生成的“猫跳水”视频动作逻辑清晰，已在Instagram获3亿流量。MiniMax坚持基座模型研发，采用MoE架构、线性注意力机制及CISPO强化学习方法，实现高效能低成本突破。作为大模型‘上海队’一员，MiniMax与商汤、阶跃星辰等共同推动AI产业发展。

原文链接

DreamCoder

07-03 07:50:43

Hailuo 02

MiniMax-M1

MoE架构

分享至

打开微信扫一扫

内容投诉

生成图片

MoE那么大，几段代码就能稳稳推理 | 开源

MoE模型推理，几段代码就能稳稳搞定 | 开源混合专家网络（MoE）已成为当前大模型主流架构之一。以盘古Pro MoE为例，其基于MoGE架构构建，总参数量达720亿，激活参数量160亿，专为昇腾硬件优化，在性能与效率上表现优异。华为最新开源项目Omni-Infer，实现了对超大规模MoE模型推...

原文链接

LunarCoder

07-02 18:09:04

MoE

Omni-Infer

开源

分享至

打开微信扫一扫

内容投诉

生成图片

华为又开源了个大的：超大规模MoE推理秘籍

华为近日开源了超大规模MoE推理项目Omni-Infer，为解决大模型推理的高效与稳定问题提供了标准答案。该项目面向企业用户，提供PD分离部署方案、QPM系统级优化及商用硬件使用方法论，同时推动开发者社区发展。北京智源研究院、上海人工智能实验室和OpenI启智社区均表示支持，并期待生态合作。Omni-Infer由推理框架和加速套件组成，兼容主流框架如vLLM，具备智能调度、负载均衡、MoE优化等特性，提升推理效率。目前仅支持CloudMatrix384推理卡和Linux环境，通过Docker镜像安装，开箱即用。Omni-Infer还建立了专业开源社区，开放治理、会议、活动等信息，采用两级管理机制，主动适配国内开源项目，推动多方共赢。相关资源链接已公布，包括技术报告、代码仓库及社区页面。

原文链接

数码游侠

07-01 13:54:16

MoE推理

Omni-Infer

华为

分享至

打开微信扫一扫

内容投诉

生成图片

华为宣布开源盘古 7B 稠密和 72B 混合专家模型

6月30日，华为正式宣布开源盘古7B稠密模型和盘古Pro MoE 72B混合专家模型，以及基于昇腾的模型推理技术。此次开源是华为推进昇腾生态战略的重要举措，旨在推动大模型技术发展与行业应用。目前，盘古Pro MoE 72B模型的权重和基础推理代码已上线开源平台，基于昇腾的超大规模MoE模型推理代码也已开放。盘古7B的相关模型权重与推理代码将在近期上线。

原文链接

GhostPilot

06-30 09:40:01

华为

盘古 7B

盘古 Pro MoE 72B

分享至

打开微信扫一扫

内容投诉

生成图片

腾讯发布并开源混元-A13B模型：极端条件仅1张中低端GPU卡即可部署

2025年6月27日，腾讯正式发布并开源混元-A13B大模型，该模型基于专家混合（MoE）架构，总参数800亿、激活参数130亿，在数学推理和逻辑任务上表现优异，甚至在极端条件下仅需1张中低端GPU即可部署。用户可通过Github、HuggingFace等平台下载使用。模型支持快慢两种思考模式，兼顾效率与准确性，适用于智能体应用及复杂指令响应，预训练数据达20万亿词元，优化了计算资源分配，为个人开发者和中小企业提供高效解决方案。

原文链接