DeepSeek新论文再引热议，梁文锋亲自提交预印本

2025-02-19 16:55:57

智慧棱镜

发布在

科普

阅读：801

DeepSeek的新注意力机制论文再次引发热议。论文提出了一种名为NSA（Native Sparse Attention）的可原生训练的稀疏注意力机制，旨在解决大模型上下文建模中计算成本高的问题。

实验显示，NSA在64k上下文解码时，前向传播速度提升9倍，反向传播速度提升6倍，解码速度提升11.6倍，且不影响性能。NSA通过动态分层稀疏策略、粗粒度Token压缩和细粒度Token选择来实现这些改进。

NSA的核心方法包括： - 动态分层稀疏策略 - 粗粒度Token压缩 - 细粒度Token选择

这些方法通过压缩、选择和滑动窗口策略优化注意力输出，保持高稀疏率，减少计算量并避免信息丢失。NSA在多项基准测试中表现出色，特别是在推理任务DROP中，性能显著提升。

研究人员使用27B参数规模的模型进行实验，结果表明NSA不仅收敛稳定，而且损失值更低。此外，NSA在8-GPU A100系统上的训练加速效果显著，尤其是在64k上下文长度时。

论文作者为DeepSeek团队，梁文锋亲自提交至arXiv。这一进展引发了关于大模型训练效率的新思考，可能开启一条更高效、更本地化的路径。

原文链接

本文链接：https://kx.umi6.com/article/13799.html

转载请注明文章出处

DeepSeek

NSA

注意力机制

分享至

打开微信扫一扫

内容投诉

生成图片

智慧棱镜

563 文章

257680 浏览

24小时热文