**摘要:** 10月21日,英伟达发布最新Normalized Transformer(nGPT)架构,显著提升AI模型训练效率。据科技媒体dataconomy报道,nGPT架构能在保持模型稳定性和准确性的同时,将训练时间缩短至原来的1/4或1/20。nGPT的核心技术是“超球面学习”,通过将嵌入、注意力矩阵和隐藏状态等关键组件映射到超球面上,确保模型各层在训练过程中保持平衡。该架构减少了训练步骤,摒弃了LayerNorm或RMSNorm等复杂归一化技术,简化了训练流程。英伟达团队在OpenWebText数据集上进行测试,结果显示nGPT在速度和效率上均优于传统GPT模型。此外,nGPT将归一化和表示学习结合成一个统一框架,简化了模型架构,便于扩展和适应更复杂的系统。未来,nGPT的方法有望应用于其他类型的模型和架构,推动AI技术的发展。 (本文基于10月22日发布的新闻内容整理)
原文链接
本文链接:https://kx.umi6.com/article/7651.html
转载请注明文章出处
相关推荐
.png)
换一换
美国关税政策再反转:芯片、手机等产品将单独征税,特朗普称周一见
2025-04-14 09:23:11
国产AI大模型上天了
2025-05-14 11:10:30
起猛了,DeepSeek会用孙子兵法?
2025-02-17 18:54:58
403 文章
53549 浏览
24小时热文
更多

-
2025-07-19 07:49:30
-
2025-07-18 23:46:25
-
2025-07-18 22:47:06