1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

正文:近日,GitHub 上出现了一个名为“Modded-NanoGPT”的新项目,大幅提升了GPT-2模型的训练速度。该项目由Keller Jordan开发,仅需5分钟即可在8块H100 GPU上完成GPT-2的训练,相比Andrej Karpathy的“llm.c”项目,训练时间从45分钟缩短至5分钟。该项目采用了FlexAttention和大序列长度等新技术,使得训练过程更加高效。尽管准确率略有下降,但Modded-NanoGPT在10亿Fineweb tokens上训练了1875步,验证损失为3.278,而默认的llm.c PyTorch训练器在100亿tokens上训练了19560步后,验证损失大于3.28。此外,Modded-NanoGPT还引入了自研的Muon优化器,该优化器在内存使用、采样效率及挂钟开销方面表现优异。 摘要保留了关键的时间、地点、事件等信息,并符合新闻三要素。

原文链接
本文链接:https://kx.umi6.com/article/9132.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
英伟达含量为零:华为密集模型盘古 Ultra 性能比肩 DeepSeek-R1,纯昇腾集群训练
2025-04-15 12:30:55
月之暗面开源改进版Muon优化器,算力需求比AdamW锐减48%,DeepSeek也适用
2025-02-23 18:01:37
Karpathy 4小时AI大课上线,小白看了都会从零构建GPT-2
2024-06-12 15:04:23
OpenAI AI 安全策略遭质疑,前高管批评其“篡改公司历史”
2025-03-07 18:01:46
汇丰策略师:美股涨势未完待续 企业盈利势头足以抵消地缘政治风险
2026-04-22 17:21:24
从“流量经营”迈向“算力经营” 基础电信运营商推出一系列算力服务
2026-04-22 16:22:08
寒武纪回应互联网大厂自研芯片影响:公司产品对各类人工智能技术具备较好普适性
2026-04-22 15:25:07
Anthropic二级市场估值升至万亿美元 超越OpenAI
2026-04-23 14:11:46
联通在线申请注册呦爱机器人商标
2026-04-24 13:14:01
CPU“严重供不应求” 供应链称国际大厂酝酿Q3再涨价
2026-04-23 16:19:37
赛力斯申请注册天行平台商标
2026-04-23 14:10:41
知情人士:华为云码道代码智能体日活增长18倍 本周上线Skill市场
2026-04-22 19:24:53
国内首家百亿估值纯推理GPU独角兽诞生!专访曦望联席CEO王湛:谁的推理成本更低谁就是赢家
2026-04-23 23:33:29
24小时热文
更多
扫一扫体验小程序