1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:月之暗面开源改进版Muon优化器,算力需求比AdamW降低48%,DeepSeek也适用

正文:算力需求比AdamW降低48%,OpenAI技术人员提出的Muon优化算法,被月之暗面团队进一步改进。团队发现Muon方法的Scaling Law,改进后证明Muon对更大模型同样适用。

在参数量最高1.5B的不同Llama架构模型上,改进后的Muon算力需求仅为AdamW的52%。团队还基于DeepSeek架构训练出一个16B的MoE模型,与改进后的优化算法一同开源。

Muon最初适用于较小的模型和数据集,改进后解决了三个问题:能否用于更大规模训练?能否在更大GPU集群上使用?是否适用于微调和强化学习?答案均为肯定。

Muon是一种神经网络隐藏层的2D参数优化器,通过正交化梯度更新矩阵,避免参数更新陷入局部极小,使模型学习到更丰富特征。改进后的Muon吸收了AdamW的优点,如引入权重衰减机制和调整参数更新尺度,使其适用于更大模型和数据集。

为了扩展Muon到分布式训练环境,团队提出一种新的并行化策略,该策略在最小化内存占用和通信开销的同时,保留了Muon的数学性质。

基于改进的Muon,团队在Llama架构模型上进行实验,结果显示Muon的样本效率是AdamW的1.92倍,即训练FLOPS只需AdamW的52%即可达到相同性能。团队还训练了一个名为Moonlight的16B参数MoE模型,该模型在多种任务中表现出色。

原文链接
本文链接:https://kx.umi6.com/article/14109.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
中信建投:在深度推理的阶段 模型的未来算力需求依然会呈现爆发式上涨
2025-02-05 08:04:08
中信证券:估算2025/2026年全球AI CAPEX规模同比增速分别为+64%/50%
2025-08-08 09:17:14
国家统计局:人工智能大模型的广泛应用显著提升了算力需求 带动服务器产量大幅增长
2025-08-15 11:13:16
看好ASIC理由又多一个?算力战争下半场开启 AI推理时代或将至
2024-12-16 15:42:04
中信建投:AI带动的算力需求依然非常旺盛 调整是机会
2025-11-17 08:14:12
史上最大 AI 基建:OpenAI 将豪掷数万亿美元,打造“AI 宇宙工厂”
2025-08-16 17:28:15
继续狂飙!豆包“全家桶”迎来重磅更新 视觉理解、视频生成功能都来了
2024-12-18 13:31:32
AI并非「泡沫」,而是产业趋势
2026-01-30 13:29:43
中信证券:海外AI叙事或重回乐观情形
2026-01-30 09:17:16
中信建投:看好AI应用落地与AI算力需求增长
2026-04-28 08:02:34
中信建投通信及人工智能中期策略:大模型持续迭代 算力需求强劲增长
2026-05-13 09:05:16
神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞
2024-11-22 14:02:04
AI基础设施快速发展 机构积极调研相关公司
2025-08-04 04:47:37
24小时热文
更多
扫一扫体验小程序