1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:月之暗面开源改进版Muon优化器,算力需求比AdamW降低48%,DeepSeek也适用

正文:算力需求比AdamW降低48%,OpenAI技术人员提出的Muon优化算法,被月之暗面团队进一步改进。团队发现Muon方法的Scaling Law,改进后证明Muon对更大模型同样适用。

在参数量最高1.5B的不同Llama架构模型上,改进后的Muon算力需求仅为AdamW的52%。团队还基于DeepSeek架构训练出一个16B的MoE模型,与改进后的优化算法一同开源。

Muon最初适用于较小的模型和数据集,改进后解决了三个问题:能否用于更大规模训练?能否在更大GPU集群上使用?是否适用于微调和强化学习?答案均为肯定。

Muon是一种神经网络隐藏层的2D参数优化器,通过正交化梯度更新矩阵,避免参数更新陷入局部极小,使模型学习到更丰富特征。改进后的Muon吸收了AdamW的优点,如引入权重衰减机制和调整参数更新尺度,使其适用于更大模型和数据集。

为了扩展Muon到分布式训练环境,团队提出一种新的并行化策略,该策略在最小化内存占用和通信开销的同时,保留了Muon的数学性质。

基于改进的Muon,团队在Llama架构模型上进行实验,结果显示Muon的样本效率是AdamW的1.92倍,即训练FLOPS只需AdamW的52%即可达到相同性能。团队还训练了一个名为Moonlight的16B参数MoE模型,该模型在多种任务中表现出色。

原文链接
本文链接:https://kx.umi6.com/article/14109.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
全球AI需求激增刺激产品涨价 机构称算力需求仍有望进一步上行
2026-03-18 19:53:05
看好ASIC理由又多一个?算力战争下半场开启 AI推理时代或将至
2024-12-16 15:42:04
中信证券:算力需求持续提升 高频高速树脂快速迭代
2025-02-15 16:04:53
杠杆、垄断和泡沫:解析硅谷万亿资本闭环
2025-10-15 18:38:50
独家|商汤联合创始人林达华:开源模型与顶尖闭源模型的差距正在迅速缩小
2025-02-21 15:57:46
神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞
2024-11-22 14:02:04
AI基础设施快速发展 机构积极调研相关公司
2025-08-04 04:47:37
仅需一块GPU!“AI教母”公布最新世界模型 算力需求“天花板”会更高吗?
2025-10-17 17:26:37
智算中心从规模优先走向应用导向 机器人催生新算力需求|聚焦
2025-06-10 12:45:57
中信证券:海外AI叙事或重回乐观情形
2026-01-30 09:17:16
AI时代,服务器厂商能否打破薄利的命运?
2024-09-19 10:30:04
中信证券:估算2025/2026年全球AI CAPEX规模同比增速分别为+64%/50%
2025-08-08 09:17:14
中信建投:AI带动的算力需求依然非常旺盛 调整是机会
2025-11-17 08:14:12
24小时热文
更多
扫一扫体验小程序