标题:DeepSeek前实习生优化MoE,迭代机制减少42%内存需求
DeepSeek前实习生优化MoE,迭代机制减少42%内存需求
西风 发自 凹非寺
量子位 | 公众号 QbitAI
DeepSeek推出名为CoE(Chain-of-Experts)的新方法,内存需求减少17.6%-42%。
CoE通过专家在单层内的串行通信,形成迭代机制,从而改进MoE并行处理方式,减少内存消耗。
研究显示,经过两次迭代的CoE,将数学任务的验证损失从1.20降至1.12,性能提升明显。
CoE通过增加迭代次数,在保持性能的同时,内存使用比增加模型层数或扩展专家选择数量的方法降低了17.6%-42%。
此外,CoE在专家组合自由度和使用效率等方面也有显著优势。
研究团队已发布CoE技术Blog(完整论文即将发布),引起广泛关注。
作者Zihan Wang曾是DeepSeek的实习生,也是ESFT论文的一作。
有网友评论MoEs中的IsoFLOP层迭代设计非常出色,还有人开始预测下一代架构。
CoE通过建立沟通性处理机制,改变稀疏神经网络的信息处理方式。实验表明,CoE在性能、资源效率优化等方面具有显著优势。
团队进一步测试发现,CoE在“dense”模型上的表现优于Dense模型,特别是在减少内存需求方面。
CoE-2(4/48)的效果与MoE(8/64)相近,但内存需求减少了17.6%。
团队对比了扩展CoE迭代次数和扩展模型层数、专家选择个数的效果,结果显示扩展CoE迭代次数更优。
CoE-2(8/64)和MoE(8/64)效果相似,但CoE节省了42%的内存。
团队强调,独立门控机制和内残差连接是CoE的关键架构创新。
CoE由五人团队提出,Zihan Wang是其中一员,他曾在DeepSeek实习,并参与多个项目。
更多详情,请查看技术报告原文和GitHub链接。
原文链接
本文链接:https://kx.umi6.com/article/15056.html
转载请注明文章出处
相关推荐
.png)
换一换
豆包提出全新稀疏模型架构 UltraMem,推理成本较 MoE 最高可降 83%
2025-02-12 13:32:45
已节省数百万GPU小时!字节再砍MoE训练成本,核心代码全开源
2025-03-11 16:36:46
OpenAI o1开辟“慢思考”,国产AI早已集结在CoE“组团”先出发
2024-09-19 15:33:35
453 文章
90492 浏览
24小时热文
更多

-
2025-07-19 18:55:37
-
2025-07-19 17:56:25
-
2025-07-19 17:55:01