DeepSeek的最新论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》引起了广泛关注。该论文介绍了一种名为NSA的新型稀疏注意力机制,适用于超快长上下文训练和推理,且具有硬件对齐和本地可训练特性。
NSA旨在解决现有稀疏注意力机制的问题。传统方法虽能提高计算速度,但仍面临巨大运算量。DeepSeek-V2的MLA通过低秩分解KV矩阵,减少了显存占用。然而,这种方法仍会平均降低重要信息的重要性。
NSA采用“三合一”策略,分为压缩、选择性保留和滑动窗口三阶段。首先,压缩阶段保留粗颗粒度的token模块;其次,选择性保留阶段根据相关性选出关键模块;最后,滑动窗口仅获取局部最近的完整token序列。这种机制不仅节省显存,还能恢复压缩丢失的信息。
NSA还引入了硬件对齐系统和训练感知设计,支持高效部署和端到端训练。测试结果显示,NSA在某些基准测试上表现优于完整注意力机制,解码速度提升了11.6倍,正向和反向阶段分别提速9倍和6倍。
NSA有望解决国产大模型在GPU芯片上的瓶颈问题,并可能实现从推理到训练的全链条国产化。尽管论文未披露所有工程细节,但其他公司复现并不难。
原文链接
本文链接:https://kx.umi6.com/article/13797.html
转载请注明文章出处
相关推荐
.png)
换一换
被曝蒸馏DeepSeek还造假!欧版OpenAI塌方了
2025-08-14 16:57:45
Arm 自 2026 年起为 GPU 引入专用神经加速器,终端明年底发货
2025-08-13 09:29:45
奥尔特曼:DeepSeek 团队很有才华,但他们没找到比 OpenAI 更高效的方法
2025-07-21 21:22:47
英伟达全新中国特供版GPU要来了?据传售价将大幅低于H20
2025-05-26 09:33:50
Meta 重金抢人,明星云集就能复制 DeepSeek 的成功吗?
2025-07-17 17:30:33
为什么DeepSeek还未能撼动OpenAI
2025-06-04 09:18:31
DeepSeek“点燃”国产芯片 FP8能否引领行业新标准?
2025-08-24 11:14:54
DeepSeek 开源新模型 V3.1:约 685B 参数,上下文长度拓展至 128K
2025-08-20 10:11:16
好险,差点被DeepSeek幻觉害死
2025-07-09 15:08:10
K2开源大模型,会是Kimi的DeepSeek时刻吗?
2025-07-14 11:19:10
半年不到 DeepSeek真已跌落神坛吗!我看未必 深扒背后原因
2025-07-24 13:06:29
玩完 DeepSeek R1 新版,外国网友又「蚌埠住了」?
2025-06-03 10:50:11
美国封锁吧!BAT三巨头纷纷抛弃NVIDIA 支持国产AI GPU
2025-05-31 15:07:08
470 文章
169508 浏览
24小时热文
更多

-
2025-09-07 00:40:01
-
2025-09-06 23:39:46
-
2025-09-06 22:39:24