
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
标题:月之暗面开源改进版Muon优化器,算力需求比AdamW降低48%,DeepSeek也适用
正文:算力需求比AdamW降低48%,OpenAI技术人员提出的Muon优化算法,被月之暗面团队进一步改进。团队发现Muon方法的Scaling Law,改进后证明Muon对更大模型同样适用。
在参数量最...
原文链接
正文:近日,GitHub 上出现了一个名为“Modded-NanoGPT”的新项目,大幅提升了GPT-2模型的训练速度。该项目由Keller Jordan开发,仅需5分钟即可在8块H100 GPU上完成GPT-2的训练,相比Andrej Karpathy的“llm.c”项目,训练时间从45分钟缩短至...
原文链接
加载更多

暂无内容