DeepSeek的最新论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》引起了广泛关注。该论文介绍了一种名为NSA的新型稀疏注意力机制,适用于超快长上下文训练和推理,且具有硬件对齐和本地可训练特性。
NSA旨在解决现有稀疏注意力机制的问题。传统方法虽能提高计算速度,但仍面临巨大运算量。DeepSeek-V2的MLA通过低秩分解KV矩阵,减少了显存占用。然而,这种方法仍会平均降低重要信息的重要性。
NSA采用“三合一”策略,分为压缩、选择性保留和滑动窗口三阶段。首先,压缩阶段保留粗颗粒度的token模块;其次,选择性保留阶段根据相关性选出关键模块;最后,滑动窗口仅获取局部最近的完整token序列。这种机制不仅节省显存,还能恢复压缩丢失的信息。
NSA还引入了硬件对齐系统和训练感知设计,支持高效部署和端到端训练。测试结果显示,NSA在某些基准测试上表现优于完整注意力机制,解码速度提升了11.6倍,正向和反向阶段分别提速9倍和6倍。
NSA有望解决国产大模型在GPU芯片上的瓶颈问题,并可能实现从推理到训练的全链条国产化。尽管论文未披露所有工程细节,但其他公司复现并不难。
原文链接
本文链接:https://kx.umi6.com/article/13797.html
转载请注明文章出处
相关推荐
换一换
DeepSeek发布两款新模型
2025-12-01 19:31:03
DeepSeek线上模型版本升级至V3.1
2025-08-19 20:04:27
英伟达Q3财报会核心要点:AI产品需求仍然爆棚
2025-11-20 10:24:20
别太相信DeepSeek
2025-08-14 18:02:41
MAU被豆包反超,Deepseek挤了点牙膏
2025-10-21 15:28:27
被曝蒸馏DeepSeek还造假!欧版OpenAI塌方了
2025-08-14 16:57:45
淘宝上卖9块9的DeepSeek,让我看到了被折叠的魔幻世界
2025-09-16 12:10:49
AI支出低于预期 腾讯回应:我们的GPU充足 足以满足内用
2025-11-14 00:28:01
DeepSeek-V3.2-Exp官宣发布,API价格下调超50%
2025-09-29 20:15:06
DeepSeek新论文剧透V4新框架!用闲置网卡加速智能体推理性能
2026-02-27 16:53:38
DeepSeek催化下,芯片带领沪指突破3800点
2025-08-22 20:52:41
DeepSeek首次回应蒸馏OpenAI质疑 :没有故意加入合成数据
2025-09-18 14:54:07
DeepSeek 开年发布新论文:提出全新 mHC 架构,梁文锋现身作者名单
2026-01-01 17:23:53
665 文章
486786 浏览
24小时热文
更多
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18