1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:月之暗面开源改进版Muon优化器,算力需求比AdamW降低48%,DeepSeek也适用

正文:算力需求比AdamW降低48%,OpenAI技术人员提出的Muon优化算法,被月之暗面团队进一步改进。团队发现Muon方法的Scaling Law,改进后证明Muon对更大模型同样适用。

在参数量最高1.5B的不同Llama架构模型上,改进后的Muon算力需求仅为AdamW的52%。团队还基于DeepSeek架构训练出一个16B的MoE模型,与改进后的优化算法一同开源。

Muon最初适用于较小的模型和数据集,改进后解决了三个问题:能否用于更大规模训练?能否在更大GPU集群上使用?是否适用于微调和强化学习?答案均为肯定。

Muon是一种神经网络隐藏层的2D参数优化器,通过正交化梯度更新矩阵,避免参数更新陷入局部极小,使模型学习到更丰富特征。改进后的Muon吸收了AdamW的优点,如引入权重衰减机制和调整参数更新尺度,使其适用于更大模型和数据集。

为了扩展Muon到分布式训练环境,团队提出一种新的并行化策略,该策略在最小化内存占用和通信开销的同时,保留了Muon的数学性质。

基于改进的Muon,团队在Llama架构模型上进行实验,结果显示Muon的样本效率是AdamW的1.92倍,即训练FLOPS只需AdamW的52%即可达到相同性能。团队还训练了一个名为Moonlight的16B参数MoE模型,该模型在多种任务中表现出色。

原文链接
本文链接:https://kx.umi6.com/article/14109.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
AI基础设施快速发展 机构积极调研相关公司
2025-08-04 04:47:37
神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞
2024-11-22 14:02:04
AI时代,服务器厂商能否打破薄利的命运?
2024-09-19 10:30:04
史上最大 AI 基建:OpenAI 将豪掷数万亿美元,打造“AI 宇宙工厂”
2025-08-16 17:28:15
一文看懂:Grok 4到底强在哪里?
2025-07-14 21:27:52
中信建投:在深度推理的阶段 模型的未来算力需求依然会呈现爆发式上涨
2025-02-05 08:04:08
看好ASIC理由又多一个?算力战争下半场开启 AI推理时代或将至
2024-12-16 15:42:04
继续狂飙!豆包“全家桶”迎来重磅更新 视觉理解、视频生成功能都来了
2024-12-18 13:31:32
国家统计局:人工智能大模型的广泛应用显著提升了算力需求 带动服务器产量大幅增长
2025-08-15 11:13:16
算力需求疑云消散?海外云厂商递上“定心丸” 国内资本开支或逐步落地
2025-05-06 19:01:23
独家|商汤联合创始人林达华:开源模型与顶尖闭源模型的差距正在迅速缩小
2025-02-21 15:57:46
DeepSeek预示算力需求“打骨折”?业界:别只盯着训练 AI行业进入推理时代
2024-12-30 09:15:53
中信证券:算力需求持续提升 高频高速树脂快速迭代
2025-02-15 16:04:53
24小时热文
更多
扫一扫体验小程序