MoE - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

OpenAI突然开源新模型！99.9%的权重是0，新稀疏性方法代替MoE

正文：2025年12月，OpenAI开源新模型，采用Circuit Sparsity技术，99.9%权重为零，仅保留关键连接，提升模型可解释性。该方法通过稀疏性约束，将模型计算过程可视化为电路图，避免传统稠密Transformer的黑箱问题，解决AI决策不透明难题。相比主流MoE模型，Circuit Sparsity追求原生稀疏性，减少信息干扰，但算力成本高，训练和推理效率低。团队提出两种优化方向：从密集模型提取稀疏电路或改进训练机制。未来计划扩展至更大模型，探索复杂推理电路。此研究为AI可解释性迈出重要一步。参考链接：[1] [2]

原文链接

跨界思维

12-14 14:46:00

分享至

打开微信扫一扫

内容投诉

生成图片

MoE那么大，几段代码就能稳稳推理 | 开源

MoE模型推理，几段代码就能稳稳搞定 | 开源混合专家网络（MoE）已成为当前大模型主流架构之一。以盘古Pro MoE为例，其基于MoGE架构构建，总参数量达720亿，激活参数量160亿，专为昇腾硬件优化，在性能与效率上表现优异。华为最新开源项目Omni-Infer，实现了对超大规模MoE模型推...

原文链接

LunarCoder

07-02 18:09:04

分享至

打开微信扫一扫

内容投诉

生成图片

训练MoE足足提速70%！华为只用了3招

标题：训练MoE提速70%！华为的三大优化策略正文： Scaling Law推动下，MoE成为各大模型厂商扩展能力的关键工具。然而，MoE在提升参数规模的同时，也带来了训练效率低下的问题，甚至一半以上的时间浪费在“等待”上。华为推出了名为Adaptive Pipe & EDPB的...

原文链接

智慧轨迹

06-03 15:58:16

分享至

打开微信扫一扫

内容投诉

生成图片

每2秒吃透一道高数大题！华为终于揭秘准万亿MoE昇腾训练系统全流程

标题：每2秒破解一道高数难题！华为揭秘准万亿MoE昇腾训练系统全流程正文：现在，请大家数一下“1”、“2”。短短2秒，一个准万亿MoE大模型已经学会解答一道高等数学难题！更令人惊叹的是，这套系统全流程基于国产技术，不依赖GPU。这就是华为通过“昇腾+Pangu Ultra Mo...

原文链接

智能视野

05-30 16:54:34

分享至

打开微信扫一扫

内容投诉

生成图片

一个「always」站在大模型技术C位的传奇男子

标题：一个「always」站在大模型技术C位的传奇男子正文：怎么老是你？？？这是最近网友不断对着Transformer八子之一的Noam Shazeer（我们称他为沙哥）发出的灵魂疑问。尤其是在Meta FAIR研究员朱泽园分享《Physics of Language Models》项...

原文链接

量子思考者

05-10 12:04:35

分享至

打开微信扫一扫

内容投诉

生成图片

已节省数百万GPU小时！字节再砍MoE训练成本，核心代码全开源

标题：字节开源COMET，大幅降低MoE训练成本正文：字节开源了名为COMET的MoE优化技术，已应用于其万卡训练集群，累计节省数百万GPU小时。COMET可将MoE模型训练成本降低40%。 COMET针对MoE模型在分布式训练中的通信开销问题，通过细粒度计算-通信折叠技术和动态资源分配，提升了训练效率。在大规模MoE模型的单个执行层上，COMET可提速1.96倍，端到端平均提速1.71倍。 COMET通过共享张量依赖解析和自适应负载分配，解决了计算与通信的粒度不匹配问题。它还支持业界主流大模型，无需复杂改动即可部署。COMET在多个大规模MoE模型中表现出色，端到端性能提升31.8%-44.4%。目前，COMET核心代码已开源，包括约1.2万行C++和CUDA代码，以及2千行Python代码，并提供Python API。

原文链接

WisdomTrail

03-11 16:36:46

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek前实习生魔改MoE，用迭代机制把内存需求砍了42%，团队：“免费午餐”优化方法

标题：DeepSeek前实习生优化MoE，迭代机制减少42%内存需求 DeepSeek前实习生优化MoE，迭代机制减少42%内存需求西风发自凹非寺量子位 | 公众号 QbitAI DeepSeek推出名为CoE（Chain-of-Experts）的新方法，内存需求减少17.6%-42...

原文链接

量子思考者

03-08 11:43:54

分享至

打开微信扫一扫

内容投诉

生成图片

榨干每一块GPU，DeepSeek开源第二天，送上降本增效神器

标题：榨干每块GPU，DeepSeek开源第二天带来降本增效神器 DeepSeek开源周进入第二天，持续推动AI大模型基础建设。今天，DeepSeek发布了DeepEP，一款专为混合专家系统（MoE）和专家并行（EP）设计的通信库。 DeepEP的设计灵感源自DeepSeek-V3论文中的群组限制门...

原文链接

跨界思维

02-25 16:02:59

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek开源第二弹，为MoE和EP量身定制的通信库！暂和英伟达显卡绑定

DeepSeek开源周再添新成员，推出专为MoE和EP设计的通信库DeepEP。首个用于MoE模型训练和推理的开源EP通信库，提供高吞吐量和低延迟的all-to-all GPU内核，并支持FP8运算。开源协议采用宽松的MIT许可证。 DeepEP在GitHub上线后反响热烈，用户纷纷点赞。该库在性能...

原文链接

AI奇点纪元

02-25 11:49:28

分享至

打开微信扫一扫

内容投诉

生成图片

豆包提出全新稀疏模型架构 UltraMem，推理成本较 MoE 最高可降 83%

2月12日，字节跳动豆包大模型团队宣布提出全新稀疏模型架构UltraMem。该架构解决了MoE在推理时高额访存问题，速度提升2-6倍，成本最高可降低83%。UltraMem在同等计算资源下实现了业界领先的推理速度和模型性能，且在参数和激活条件下超越了MoE。该架构在Transformer架构下表现出优异的Scaling特性，为构建大规模模型开辟新路径。

原文链接