正文:近日,GitHub 上出现了一个名为“Modded-NanoGPT”的新项目,大幅提升了GPT-2模型的训练速度。该项目由Keller Jordan开发,仅需5分钟即可在8块H100 GPU上完成GPT-2的训练,相比Andrej Karpathy的“llm.c”项目,训练时间从45分钟缩短至5分钟。该项目采用了FlexAttention和大序列长度等新技术,使得训练过程更加高效。尽管准确率略有下降,但Modded-NanoGPT在10亿Fineweb tokens上训练了1875步,验证损失为3.278,而默认的llm.c PyTorch训练器在100亿tokens上训练了19560步后,验证损失大于3.28。此外,Modded-NanoGPT还引入了自研的Muon优化器,该优化器在内存使用、采样效率及挂钟开销方面表现优异。 摘要保留了关键的时间、地点、事件等信息,并符合新闻三要素。
原文链接
本文链接:https://kx.umi6.com/article/9132.html
转载请注明文章出处
相关推荐
换一换
OpenAI AI 安全策略遭质疑,前高管批评其“篡改公司历史”
2025-03-07 18:01:46
Karpathy 4小时AI大课上线,小白看了都会从零构建GPT-2
2024-06-12 15:04:23
英伟达含量为零:华为密集模型盘古 Ultra 性能比肩 DeepSeek-R1,纯昇腾集群训练
2025-04-15 12:30:55
月之暗面开源改进版Muon优化器,算力需求比AdamW锐减48%,DeepSeek也适用
2025-02-23 18:01:37
国产之“光”爆单!AI算力需求太猛:光纤光缆企业订单排到2027年
2026-06-04 00:45:08
重估比亚迪,从智驾开始
2026-06-04 21:22:12
NVIDIA发布Cosmos 3:全球首个全开源物理AI全能模型面世
2026-06-05 00:32:58
亚洲首富只当了三天 孙正义是时代弄潮儿还是追泡沫的人?
2026-06-04 17:16:03
AI Agent的门票 MiniMax想先打下来
2026-06-04 17:17:31
OpenAI芯片核心叛逃Anthropic!就在量产前夜
2026-06-07 20:48:02
ARM CEO:美对华禁运AI CPU几乎不可能!比禁GPU难多了
2026-06-03 16:29:54
让矩阵归模拟,让逻辑归数字!这家中国团队重新定义了计算机
2026-06-08 13:25:50
港中深王方鑫团队:3D 重建的「玻璃杯难题」,终于被摆上台面丨CVPR 2026
2026-06-04 12:05:02
690 文章
613341 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41