1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:DeepSeek前实习生优化MoE,迭代机制减少42%内存需求

DeepSeek前实习生优化MoE,迭代机制减少42%内存需求

西风 发自 凹非寺

量子位 | 公众号 QbitAI

DeepSeek推出名为CoE(Chain-of-Experts)的新方法,内存需求减少17.6%-42%。

CoE通过专家在单层内的串行通信,形成迭代机制,从而改进MoE并行处理方式,减少内存消耗。

研究显示,经过两次迭代的CoE,将数学任务的验证损失从1.20降至1.12,性能提升明显。

CoE通过增加迭代次数,在保持性能的同时,内存使用比增加模型层数或扩展专家选择数量的方法降低了17.6%-42%。

此外,CoE在专家组合自由度和使用效率等方面也有显著优势。

研究团队已发布CoE技术Blog(完整论文即将发布),引起广泛关注。

作者Zihan Wang曾是DeepSeek的实习生,也是ESFT论文的一作。

有网友评论MoEs中的IsoFLOP层迭代设计非常出色,还有人开始预测下一代架构。

CoE通过建立沟通性处理机制,改变稀疏神经网络的信息处理方式。实验表明,CoE在性能、资源效率优化等方面具有显著优势。

团队进一步测试发现,CoE在“dense”模型上的表现优于Dense模型,特别是在减少内存需求方面。

CoE-2(4/48)的效果与MoE(8/64)相近,但内存需求减少了17.6%。

团队对比了扩展CoE迭代次数和扩展模型层数、专家选择个数的效果,结果显示扩展CoE迭代次数更优。

CoE-2(8/64)和MoE(8/64)效果相似,但CoE节省了42%的内存。

团队强调,独立门控机制和内残差连接是CoE的关键架构创新。

CoE由五人团队提出,Zihan Wang是其中一员,他曾在DeepSeek实习,并参与多个项目。

更多详情,请查看技术报告原文和GitHub链接。

原文链接
本文链接:https://kx.umi6.com/article/15056.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
MoE 高效训练的 A/B 面:与魔鬼做交易,用「显存」换「性能」
2024-06-07 18:18:13
大模型的中场战事:CoE or MoE ?
2024-08-03 11:48:38
DeepSeek前实习生魔改MoE,用迭代机制把内存需求砍了42%,团队:“免费午餐”优化方法
2025-03-08 11:43:54
“全球首创”单台 RTX 4090 服务器推理,昆仑万维开源 2 千亿稀疏大模型天工 MoE
2024-06-03 18:55:11
已节省数百万GPU小时!字节再砍MoE训练成本,核心代码全开源
2025-03-11 16:36:46
一个「always」站在大模型技术C位的传奇男子
2025-05-10 12:04:35
昆仑万维开源2千亿稀疏大模型天工MoE,全球首创用4090推理
2024-06-06 18:12:00
训练MoE足足提速70%!华为只用了3招
2025-06-03 15:58:16
对话蜜度CTO刘益东:价格战、MoE......中国AI大模型下一步“卷”什么?
2024-07-05 20:47:52
DeepSeek开源第二弹,为MoE和EP量身定制的通信库!暂和英伟达显卡绑定
2025-02-25 11:49:28
腾讯放大招,超Meta!史上参数最大,开源专家混合模型
2024-11-07 10:59:44
MoE那么大,几段代码就能稳稳推理 | 开源
2025-07-02 18:09:04
腾讯推出 Hunyuan-Large 大模型:389B 总参数,业界已开源基于 Transformer 的最大 MoE 模型
2024-11-05 17:04:28
24小时热文
更多
扫一扫体验小程序