NSA - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

DeepSeek新论文再引热议，梁文锋亲自提交预印本

DeepSeek的新注意力机制论文再次引发热议。论文提出了一种名为NSA（Native Sparse Attention）的可原生训练的稀疏注意力机制，旨在解决大模型上下文建模中计算成本高的问题。实验显示，NSA在64k上下文解码时，前向传播速度提升9倍，反向传播速度提升6倍，解码速度提升11.6...

原文链接

智慧棱镜

02-19 16:55:57

分享至

打开微信扫一扫

内容投诉

生成图片

撞车DeepSeek NSA Kimi杨植麟署名的新注意力架构MoBA发布

2月18日，DeepSeek发布一篇由CEO梁文锋参与的新论文，提出了改进版注意力机制NSA。同日，月之暗面也发布了一篇相似主题的论文，署名作者包括其CEO杨植麟。该论文介绍了一种名为MoBA的注意力机制，这是一种将混合专家原理应用于注意力机制的创新方法，遵循‘更少结构’原则，使模型能自主决定关注的位置。

原文链接

AI奇点纪元

02-19 15:57:22

分享至

打开微信扫一扫

内容投诉

生成图片

梁文锋参与著作！DeepSeek最新论文介绍新机制可使AI模型进一步降本增效

2月18日，DeepSeek团队发布论文介绍新机制NSA（Natively Sparse Attention），专为长文本训练与推理设计。NSA通过动态分层稀疏策略和硬件优化，显著提升AI模型在长上下文推理中的性能，同时降低成本。DeepSeek创始人梁文锋是该论文作者之一。NSA在通用及长文本任务中表现出色，尤其在链式推理等复杂任务中展现潜力，推理速度大幅提升，最高可达11.6倍。此技术有望扩展大语言模型的应用范围。

原文链接

LunarCoder

02-18 21:29:43

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek推出NSA 用于超快速的长上下文训练和推理

财联社2月18日电，DeepSeek宣布推出NSA，这是一种针对现代硬件优化设计的稀疏注意力机制，适用于超快速的长上下文训练和推理。NSA不仅能加速推理速度，还能降低预训练成本，同时保持高性能。在各类基准测试中，NSA的表现与完全注意力模型相当甚至更优。

原文链接

AI奇点纪元

02-18 17:33:00

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek 再放降本大招：NSA 官宣发布，加速推理降低成本，并且不牺牲性能

2月18日，DeepSeek宣布推出NSA（Native Sparse Attention），一种硬件对 alignments 且原生可训练的稀疏注意力机制，旨在加速推理并降低成本，同时保持性能。NSA的核心组件包括动态分层稀疏策略、粗粒度token压缩及细粒度token选择。DeepSeek表示，该机制在通用基准、长上下文任务和基于指令的推理中表现出色，不逊于全注意力模型。更多信息参见：

原文链接