标题:月之暗面开源改进版Muon优化器,算力需求比AdamW降低48%,DeepSeek也适用
正文:算力需求比AdamW降低48%,OpenAI技术人员提出的Muon优化算法,被月之暗面团队进一步改进。团队发现Muon方法的Scaling Law,改进后证明Muon对更大模型同样适用。
在参数量最高1.5B的不同Llama架构模型上,改进后的Muon算力需求仅为AdamW的52%。团队还基于DeepSeek架构训练出一个16B的MoE模型,与改进后的优化算法一同开源。
Muon最初适用于较小的模型和数据集,改进后解决了三个问题:能否用于更大规模训练?能否在更大GPU集群上使用?是否适用于微调和强化学习?答案均为肯定。
Muon是一种神经网络隐藏层的2D参数优化器,通过正交化梯度更新矩阵,避免参数更新陷入局部极小,使模型学习到更丰富特征。改进后的Muon吸收了AdamW的优点,如引入权重衰减机制和调整参数更新尺度,使其适用于更大模型和数据集。
为了扩展Muon到分布式训练环境,团队提出一种新的并行化策略,该策略在最小化内存占用和通信开销的同时,保留了Muon的数学性质。
基于改进的Muon,团队在Llama架构模型上进行实验,结果显示Muon的样本效率是AdamW的1.92倍,即训练FLOPS只需AdamW的52%即可达到相同性能。团队还训练了一个名为Moonlight的16B参数MoE模型,该模型在多种任务中表现出色。
原文链接
本文链接:https://kx.umi6.com/article/14109.html
转载请注明文章出处
相关推荐
.png)
换一换
奥特曼再谈DeepSeek:每天醒来都有压力
2025-02-12 19:35:47
医疗AI进入临床深水区,能否重构200亿市场格局?
2025-03-31 12:28:17
用 AI 帮助“打灰”,缪昌文院士目标将混凝土的设计寿命延长到 200 年
2024-12-18 13:30:26
412 文章
66316 浏览
24小时热文
更多

-
2025-07-18 23:46:25
-
2025-07-18 22:47:06
-
2025-07-18 22:46:21