1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

正文:近日,GitHub 上出现了一个名为“Modded-NanoGPT”的新项目,大幅提升了GPT-2模型的训练速度。该项目由Keller Jordan开发,仅需5分钟即可在8块H100 GPU上完成GPT-2的训练,相比Andrej Karpathy的“llm.c”项目,训练时间从45分钟缩短至5分钟。该项目采用了FlexAttention和大序列长度等新技术,使得训练过程更加高效。尽管准确率略有下降,但Modded-NanoGPT在10亿Fineweb tokens上训练了1875步,验证损失为3.278,而默认的llm.c PyTorch训练器在100亿tokens上训练了19560步后,验证损失大于3.28。此外,Modded-NanoGPT还引入了自研的Muon优化器,该优化器在内存使用、采样效率及挂钟开销方面表现优异。 摘要保留了关键的时间、地点、事件等信息,并符合新闻三要素。

原文链接
本文链接:https://kx.umi6.com/article/9132.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
月之暗面开源改进版Muon优化器,算力需求比AdamW锐减48%,DeepSeek也适用
2025-02-23 18:01:37
OpenAI AI 安全策略遭质疑,前高管批评其“篡改公司历史”
2025-03-07 18:01:46
神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞
2024-11-22 14:02:04
24小时热文
更多
扫一扫体验小程序