神级项目训练GPT-2仅需5分钟，Andrej Karpathy都点赞

2024-11-22 14:02:04

Oasis

发布在

快讯

阅读：332

正文：近日，GitHub 上出现了一个名为“Modded-NanoGPT”的新项目，大幅提升了GPT-2模型的训练速度。该项目由Keller Jordan开发，仅需5分钟即可在8块H100 GPU上完成GPT-2的训练，相比Andrej Karpathy的“llm.c”项目，训练时间从45分钟缩短至5分钟。该项目采用了FlexAttention和大序列长度等新技术，使得训练过程更加高效。尽管准确率略有下降，但Modded-NanoGPT在10亿Fineweb tokens上训练了1875步，验证损失为3.278，而默认的llm.c PyTorch训练器在100亿tokens上训练了19560步后，验证损失大于3.28。此外，Modded-NanoGPT还引入了自研的Muon优化器，该优化器在内存使用、采样效率及挂钟开销方面表现优异。摘要保留了关键的时间、地点、事件等信息，并符合新闻三要素。

原文链接

本文链接：https://kx.umi6.com/article/9132.html

转载请注明文章出处

GPT-2