英伟达新 nGPT 架构撬动 AI 未来：超球面学习提效，训练模型时间可缩短至 1/20

2024-10-22 11:00:45

虚拟织梦者

发布在

快讯

阅读：312

**摘要：** 10月21日，英伟达发布最新Normalized Transformer（nGPT）架构，显著提升AI模型训练效率。据科技媒体dataconomy报道，nGPT架构能在保持模型稳定性和准确性的同时，将训练时间缩短至原来的1/4或1/20。nGPT的核心技术是“超球面学习”，通过将嵌入、注意力矩阵和隐藏状态等关键组件映射到超球面上，确保模型各层在训练过程中保持平衡。该架构减少了训练步骤，摒弃了LayerNorm或RMSNorm等复杂归一化技术，简化了训练流程。英伟达团队在OpenWebText数据集上进行测试，结果显示nGPT在速度和效率上均优于传统GPT模型。此外，nGPT将归一化和表示学习结合成一个统一框架，简化了模型架构，便于扩展和适应更复杂的系统。未来，nGPT的方法有望应用于其他类型的模型和架构，推动AI技术的发展。（本文基于10月22日发布的新闻内容整理）

原文链接

本文链接：https://kx.umi6.com/article/7651.html

转载请注明文章出处

AI模型训练