正文:近日,GitHub 上出现了一个名为“Modded-NanoGPT”的新项目,大幅提升了GPT-2模型的训练速度。该项目由Keller Jordan开发,仅需5分钟即可在8块H100 GPU上完成GPT-2的训练,相比Andrej Karpathy的“llm.c”项目,训练时间从45分钟缩短至5分钟。该项目采用了FlexAttention和大序列长度等新技术,使得训练过程更加高效。尽管准确率略有下降,但Modded-NanoGPT在10亿Fineweb tokens上训练了1875步,验证损失为3.278,而默认的llm.c PyTorch训练器在100亿tokens上训练了19560步后,验证损失大于3.28。此外,Modded-NanoGPT还引入了自研的Muon优化器,该优化器在内存使用、采样效率及挂钟开销方面表现优异。 摘要保留了关键的时间、地点、事件等信息,并符合新闻三要素。
原文链接
本文链接:https://kx.umi6.com/article/9132.html
转载请注明文章出处
相关推荐
.png)
换一换
月之暗面开源改进版Muon优化器,算力需求比AdamW锐减48%,DeepSeek也适用
2025-02-23 18:01:37
英伟达含量为零:华为密集模型盘古 Ultra 性能比肩 DeepSeek-R1,纯昇腾集群训练
2025-04-15 12:30:55
神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞
2024-11-22 14:02:04
OpenAI AI 安全策略遭质疑,前高管批评其“篡改公司历史”
2025-03-07 18:01:46
Karpathy 4小时AI大课上线,小白看了都会从零构建GPT-2
2024-06-12 15:04:23
腾讯大笔资金加码AI 曝一业务关停 相关视频号已被注销 官网显示“当前服务升级维护中”
2025-09-05 12:21:09
华纳兄弟探索起诉 Midjourney,指控其 AI 侵犯蝙蝠侠、超人、兔八哥等角色版权
2025-09-05 10:19:00
9.16-9.17来腾讯全球数字生态大会,与行业大咖「智者见智」共话AI增益新机
2025-09-04 20:06:13
马斯克旗下AI女友Ani夏装换新:高叉热裤到热辣比基尼
2025-09-04 23:08:57
Anthropic突然封锁中国企业,我们该从中学到什么?
2025-09-06 11:33:57
博通 FY2025Q3 营收同比增长 22%,拿下新客户 AI 芯片大单
2025-09-05 10:17:50
OpenAI宣布推出AI在线招聘平台,和微软的领英打起来了
2025-09-05 10:16:42
商汤大装置与华为昇腾 384 超节点全面适配,多项创新提升训练效率
2025-09-06 14:35:21
461 文章
171835 浏览
24小时热文
更多

-
2025-09-06 22:39:24
-
2025-09-06 21:38:26
-
2025-09-06 20:38:03