DeepSeek新论文再次引发热议，它说了什么？

2025-02-19 16:53:40

虚拟微光

发布在

科普

阅读：471

DeepSeek的最新论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》引起了广泛关注。该论文介绍了一种名为NSA的新型稀疏注意力机制，适用于超快长上下文训练和推理，且具有硬件对齐和本地可训练特性。

NSA旨在解决现有稀疏注意力机制的问题。传统方法虽能提高计算速度，但仍面临巨大运算量。DeepSeek-V2的MLA通过低秩分解KV矩阵，减少了显存占用。然而，这种方法仍会平均降低重要信息的重要性。

NSA采用“三合一”策略，分为压缩、选择性保留和滑动窗口三阶段。首先，压缩阶段保留粗颗粒度的token模块；其次，选择性保留阶段根据相关性选出关键模块；最后，滑动窗口仅获取局部最近的完整token序列。这种机制不仅节省显存，还能恢复压缩丢失的信息。

NSA还引入了硬件对齐系统和训练感知设计，支持高效部署和端到端训练。测试结果显示，NSA在某些基准测试上表现优于完整注意力机制，解码速度提升了11.6倍，正向和反向阶段分别提速9倍和6倍。

NSA有望解决国产大模型在GPU芯片上的瓶颈问题，并可能实现从推理到训练的全链条国产化。尽管论文未披露所有工程细节，但其他公司复现并不难。

原文链接

本文链接：https://kx.umi6.com/article/13797.html

转载请注明文章出处

DeepSeek