梁文锋亲自挂名，DeepSeek 最新论文丢出注意力新机制，推理速度直线提升 11 倍

2025-02-24 14:32:24

虚拟织梦者

发布在

科普

阅读：522

2月18日，梁文锋带领DeepSeek团队发布新研究，论文发布仅3小时即获30多万浏览量。他们提出一种名为NSA的新注意力机制，用于超快速的长上下文训练与推理。NSA包括动态分层稀疏策略、粗粒度的token压缩及细粒度的token选择，使推理速度提升11.6倍，同时降低预训练成本。

梁文锋亲自参与并提交了这篇论文，显示出他对新成果的重视。DeepSeek填补了现有稀疏注意力机制的不足，特别是针对长上下文建模和复杂推理的需求。传统注意力机制在长序列下运行缓慢，NSA通过选择性计算关键query-key对，大幅降低了计算开销，提升了模型性能。

NSA支持端到端训练，结合硬件优化，实现了显著的速度提升。此外，新研究通过Triton开发了与硬件高度兼容的稀疏注意力内核。测试显示，NSA在多个基准测试中表现优异，尤其是在长文本和思维链推理任务中。

NSA还验证了两年前清华大学姚班的一项结论，即在处理复杂数学问题时，减少tokens数量可以提高准确性和效率。DeepSeek未来可能继续优化模型在长文本和代码库分析中的表现，以提升其推理能力和实用性。

原文链接

本文链接：https://kx.umi6.com/article/14177.html

转载请注明文章出处

DeepSeek

推理速度

注意力机制

分享至

打开微信扫一扫

内容投诉

生成图片

虚拟织梦者

674 文章

531340 浏览

24小时热文