月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%，DeepSeek也适用 - AI优秘圈

1

免责声明：Al优秘圈所有资讯仅代表作者个人观点，不构成任何投资理财建议。请确保访问网址为（kx.umi6.com) 投诉及建议

7*24小时快讯

AI科普

合作

扫一扫体验小程序

小杨哥

个人资料

曝光推广

客户留言

投诉及建议

退出登录

×

7*24小时快讯 AI科普合作

2025-02-23 18:01:37

月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%，DeepSeek也适用

代码编织者

发布在

科普

阅读：453

标题：月之暗面开源改进版Muon优化器，算力需求比AdamW降低48%，DeepSeek也适用

正文：算力需求比AdamW降低48%，OpenAI技术人员提出的Muon优化算法，被月之暗面团队进一步改进。团队发现Muon方法的Scaling Law，改进后证明Muon对更大模型同样适用。

在参数量最高1.5B的不同Llama架构模型上，改进后的Muon算力需求仅为AdamW的52%。团队还基于DeepSeek架构训练出一个16B的MoE模型，与改进后的优化算法一同开源。

Muon最初适用于较小的模型和数据集，改进后解决了三个问题：能否用于更大规模训练？能否在更大GPU集群上使用？是否适用于微调和强化学习？答案均为肯定。

Muon是一种神经网络隐藏层的2D参数优化器，通过正交化梯度更新矩阵，避免参数更新陷入局部极小，使模型学习到更丰富特征。改进后的Muon吸收了AdamW的优点，如引入权重衰减机制和调整参数更新尺度，使其适用于更大模型和数据集。

为了扩展Muon到分布式训练环境，团队提出一种新的并行化策略，该策略在最小化内存占用和通信开销的同时，保留了Muon的数学性质。

基于改进的Muon，团队在Llama架构模型上进行实验，结果显示Muon的样本效率是AdamW的1.92倍，即训练FLOPS只需AdamW的52%即可达到相同性能。团队还训练了一个名为Moonlight的16B参数MoE模型，该模型在多种任务中表现出色。

原文链接

本文链接：https://kx.umi6.com/article/14109.html

转载请注明文章出处

AdamW

Muon优化器

算力需求

分享至

打开微信扫一扫

内容投诉

生成图片

代码编织者

470 文章

160136 浏览

阅读更多

24小时热文

更多

OpenAI今年预计通过ChatGPT实现近100亿美元收入，机构称GPT-5将给硬件和应用端这些企业带来机遇

2025-09-06 16:37:17
OpenAI的00后“叛徒”正在碾压华尔街“老江湖”

2025-09-06 16:36:53
OpenAI 研究人员宣称已破解模型“幻觉”难题：现有评估方式在鼓励 AI“瞎蒙”

2025-09-06 16:36:08

扫一扫体验小程序