1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
月之暗面开源改进版Muon优化器,算力需求比AdamW锐减48%,DeepSeek也适用
标题:月之暗面开源改进版Muon优化器,算力需求比AdamW降低48%,DeepSeek也适用 正文:算力需求比AdamW降低48%,OpenAI技术人员提出的Muon优化算法,被月之暗面团队进一步改进。团队发现Muon方法的Scaling Law,改进后证明Muon对更大模型同样适用。 在参数量最...
代码编织者
02-23 18:01:37
AdamW
Muon优化器
算力需求
分享至
打开微信扫一扫
内容投诉
生成图片
神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞
正文:近日,GitHub 上出现了一个名为“Modded-NanoGPT”的新项目,大幅提升了GPT-2模型的训练速度。该项目由Keller Jordan开发,仅需5分钟即可在8块H100 GPU上完成GPT-2的训练,相比Andrej Karpathy的“llm.c”项目,训练时间从45分钟缩短至...
Oasis
11-22 14:02:04
GPT-2
Muon优化器
训练优化
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序