综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
正文:2025年12月,OpenAI开源新模型,采用Circuit Sparsity技术,99.9%权重为零,仅保留关键连接,提升模型可解释性。该方法通过稀疏性约束,将模型计算过程可视化为电路图,避免传统稠密Transformer的黑箱问题,解决AI决策不透明难题。相比主流MoE模型,Circuit Sparsity追求原生稀疏性,减少信息干扰,但算力成本高,训练和推理效率低。团队提出两种优化方向:从密集模型提取稀疏电路或改进训练机制。未来计划扩展至更大模型,探索复杂推理电路。此研究为AI可解释性迈出重要一步。参考链接:[1] [2]
原文链接
MoE模型推理,几段代码就能稳稳搞定 | 开源
混合专家网络(MoE)已成为当前大模型主流架构之一。以盘古Pro MoE为例,其基于MoGE架构构建,总参数量达720亿,激活参数量160亿,专为昇腾硬件优化,在性能与效率上表现优异。
华为最新开源项目Omni-Infer,实现了对超大规模MoE模型推...
原文链接
标题:训练MoE提速70%!华为的三大优化策略
正文:
Scaling Law推动下,MoE成为各大模型厂商扩展能力的关键工具。然而,MoE在提升参数规模的同时,也带来了训练效率低下的问题,甚至一半以上的时间浪费在“等待”上。
华为推出了名为Adaptive Pipe & EDPB的...
原文链接
标题:每2秒破解一道高数难题!华为揭秘准万亿MoE昇腾训练系统全流程
正文:
现在,请大家数一下“1”、“2”。
短短2秒,一个准万亿MoE大模型已经学会解答一道高等数学难题!
更令人惊叹的是,这套系统全流程基于国产技术,不依赖GPU。
这就是华为通过“昇腾+Pangu Ultra Mo...
原文链接
标题:一个「always」站在大模型技术C位的传奇男子
正文:
怎么老是你???
这是最近网友不断对着Transformer八子之一的Noam Shazeer(我们称他为沙哥)发出的灵魂疑问。尤其是在Meta FAIR研究员朱泽园分享《Physics of Language Models》项...
原文链接
标题:字节开源COMET,大幅降低MoE训练成本
正文:
字节开源了名为COMET的MoE优化技术,已应用于其万卡训练集群,累计节省数百万GPU小时。COMET可将MoE模型训练成本降低40%。
COMET针对MoE模型在分布式训练中的通信开销问题,通过细粒度计算-通信折叠技术和动态资源分配,提升了训练效率。在大规模MoE模型的单个执行层上,COMET可提速1.96倍,端到端平均提速1.71倍。
COMET通过共享张量依赖解析和自适应负载分配,解决了计算与通信的粒度不匹配问题。它还支持业界主流大模型,无需复杂改动即可部署。COMET在多个大规模MoE模型中表现出色,端到端性能提升31.8%-44.4%。
目前,COMET核心代码已开源,包括约1.2万行C++和CUDA代码,以及2千行Python代码,并提供Python API。
原文链接
标题:DeepSeek前实习生优化MoE,迭代机制减少42%内存需求
DeepSeek前实习生优化MoE,迭代机制减少42%内存需求
西风 发自 凹非寺
量子位 | 公众号 QbitAI
DeepSeek推出名为CoE(Chain-of-Experts)的新方法,内存需求减少17.6%-42...
原文链接
标题:榨干每块GPU,DeepSeek开源第二天带来降本增效神器
DeepSeek开源周进入第二天,持续推动AI大模型基础建设。今天,DeepSeek发布了DeepEP,一款专为混合专家系统(MoE)和专家并行(EP)设计的通信库。
DeepEP的设计灵感源自DeepSeek-V3论文中的群组限制门...
原文链接
DeepSeek开源周再添新成员,推出专为MoE和EP设计的通信库DeepEP。首个用于MoE模型训练和推理的开源EP通信库,提供高吞吐量和低延迟的all-to-all GPU内核,并支持FP8运算。开源协议采用宽松的MIT许可证。
DeepEP在GitHub上线后反响热烈,用户纷纷点赞。该库在性能...
原文链接
2月12日,字节跳动豆包大模型团队宣布提出全新稀疏模型架构UltraMem。该架构解决了MoE在推理时高额访存问题,速度提升2-6倍,成本最高可降低83%。UltraMem在同等计算资源下实现了业界领先的推理速度和模型性能,且在参数和激活条件下超越了MoE。该架构在Transformer架构下表现出优异的Scaling特性,为构建大规模模型开辟新路径。
原文链接
加载更多
暂无内容