
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
**摘要:**
10月21日,英伟达发布最新Normalized Transformer(nGPT)架构,显著提升AI模型训练效率。据科技媒体dataconomy报道,nGPT架构能在保持模型稳定性和准确性的同时,将训练时间缩短至原来的1/4或1/20。nGPT的核心技术是“超球面学习”,通过将嵌入、注意力矩阵和隐藏状态等关键组件映射到超球面上,确保模型各层在训练过程中保持平衡。该架构减少了训练步骤,摒弃了LayerNorm或RMSNorm等复杂归一化技术,简化了训练流程。英伟达团队在OpenWebText数据集上进行测试,结果显示nGPT在速度和效率上均优于传统GPT模型。此外,nGPT将归一化和表示学习结合成一个统一框架,简化了模型架构,便于扩展和适应更复杂的系统。未来,nGPT的方法有望应用于其他类型的模型和架构,推动AI技术的发展。
(本文基于10月22日发布的新闻内容整理)
原文链接
【快科技10月20日报道】NVIDIA最新研究可能彻底改变AI的未来。其研究团队开发出一种名为“归一化Transformer”(nGPT)的新型神经网络架构,该架构在超球面上进行表示学习,显著提升了大型语言模型(LLM)的训练速度,最高可提升20倍,同时保持了模型的精度。nGPT架构的核心是将所有向量归一化为单位范数,使得输入的token在超球面表面上移动,每一层模型通过位移贡献最终的输出预测。实验显示,nGPT在不同序列长度下的训练速度显著提高:在1k上下文中提高4倍,在4k上下文中提高10倍,在8k上下文中提高20倍。此技术不仅能大幅提升训练速度,还增强了模型的稳定性。
(注:摘要内容约200字)
原文链接
2024年6月6日,吴霁虹教授在胡润百富与北京大学等机构联合发布的《2024年数字空间共同体白皮书》会上,展望了未来AGI的发展趋势,强调构建AGI不局限于单一AI。她回顾了与ChatGPT创始人Sam Altman的渊源,并分享了自己团队在LNM-DecisionGPTG领域的突破,指出AI大模型将极大提升决策效率,如预测全球经济和股票市场。吴教授强调了AI的多元路径,包括LLM大语言模型和物理空间状态等模型,并提出LNM决策模型作为决策辅助,已在财经教育和新能源等领域展现高精准度。倡议AI研发者遵循"人类可控、合规合法、造福人类"的原则,共创AI+千行百业的共享经济生态。
原文链接
加载更多

暂无内容