DeepSeek的最新论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》引起了广泛关注。该论文介绍了一种名为NSA的新型稀疏注意力机制,适用于超快长上下文训练和推理,且具有硬件对齐和本地可训练特性。
NSA旨在解决现有稀疏注意力机制的问题。传统方法虽能提高计算速度,但仍面临巨大运算量。DeepSeek-V2的MLA通过低秩分解KV矩阵,减少了显存占用。然而,这种方法仍会平均降低重要信息的重要性。
NSA采用“三合一”策略,分为压缩、选择性保留和滑动窗口三阶段。首先,压缩阶段保留粗颗粒度的token模块;其次,选择性保留阶段根据相关性选出关键模块;最后,滑动窗口仅获取局部最近的完整token序列。这种机制不仅节省显存,还能恢复压缩丢失的信息。
NSA还引入了硬件对齐系统和训练感知设计,支持高效部署和端到端训练。测试结果显示,NSA在某些基准测试上表现优于完整注意力机制,解码速度提升了11.6倍,正向和反向阶段分别提速9倍和6倍。
NSA有望解决国产大模型在GPU芯片上的瓶颈问题,并可能实现从推理到训练的全链条国产化。尽管论文未披露所有工程细节,但其他公司复现并不难。
原文链接
本文链接:https://kx.umi6.com/article/13797.html
转载请注明文章出处
相关推荐
.png)
换一换
罗永浩:新AI产品3个月后见 DeepSeek创始人建议我“靠嘴吃饭”
2025-06-22 11:15:34
DeepSeek成了硅谷最大的“不能说的秘密”
2025-09-23 17:20:46
DeepSeek首登《自然》封面:中国大模型创造新历史,做了OpenAI不敢做的事
2025-09-18 16:58:59
deepseek关联公司公布大语言模型部署方法专利
2025-08-01 14:04:10
DeepSeek新模型上线
2025-09-30 11:25:43
DeepSeek下一代技术提前曝光,梁文锋署名论文获ACL2025最佳论文奖
2025-07-31 09:00:51
DeepSeek终于把OpenAI逼急了
2025-08-06 16:35:39
DeepSeek给中国软件埋了一个「地雷」?
2025-06-24 09:14:11
德国要求苹果与谷歌下架DeepSeek应用 中方已多次明确表态
2025-06-28 12:19:15
K时评:以讹传讹 DeepSeek向王一博道歉或为“乌龙事件”
2025-07-04 19:49:07
DeepSeek又更新了,期待梁文锋“炸场”
2025-08-21 09:28:01
DeepSeek首次回应蒸馏OpenAI质疑 :没有故意加入合成数据
2025-09-18 14:54:07
GPT-5之后,奥特曼向左,梁文锋向右
2025-08-15 17:17:56
529 文章
259528 浏览
24小时热文
更多

-
2025-10-24 01:20:07
-
2025-10-24 00:18:56
-
2025-10-23 21:15:29