DeepSeek的最新论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》引起了广泛关注。该论文介绍了一种名为NSA的新型稀疏注意力机制,适用于超快长上下文训练和推理,且具有硬件对齐和本地可训练特性。
NSA旨在解决现有稀疏注意力机制的问题。传统方法虽能提高计算速度,但仍面临巨大运算量。DeepSeek-V2的MLA通过低秩分解KV矩阵,减少了显存占用。然而,这种方法仍会平均降低重要信息的重要性。
NSA采用“三合一”策略,分为压缩、选择性保留和滑动窗口三阶段。首先,压缩阶段保留粗颗粒度的token模块;其次,选择性保留阶段根据相关性选出关键模块;最后,滑动窗口仅获取局部最近的完整token序列。这种机制不仅节省显存,还能恢复压缩丢失的信息。
NSA还引入了硬件对齐系统和训练感知设计,支持高效部署和端到端训练。测试结果显示,NSA在某些基准测试上表现优于完整注意力机制,解码速度提升了11.6倍,正向和反向阶段分别提速9倍和6倍。
NSA有望解决国产大模型在GPU芯片上的瓶颈问题,并可能实现从推理到训练的全链条国产化。尽管论文未披露所有工程细节,但其他公司复现并不难。
原文链接
本文链接:https://kx.umi6.com/article/13797.html
转载请注明文章出处
相关推荐
换一换
MAU被豆包反超,Deepseek挤了点牙膏
2025-10-21 15:28:27
AI实盘操作,DeepSeek暴赚,Gemini崩盘,网友:专业对口就是不一样
2025-10-20 21:13:47
DeepSeek成了硅谷最大的“不能说的秘密”
2025-09-23 17:20:46
广东:重点布局GPU、FPGA、NPU等高端通用人工智能芯片及ASIC专用人工智能芯片的研发、设计和制造
2026-03-10 17:50:35
DeepSeek官方点赞元宝,罕见现身互动
2025-12-24 17:46:41
李开复:如果十年后回顾 DeepSeek 如何让中国未落后美国,答案是开源
2025-09-27 12:40:23
DeepSeek深夜更新后自曝:我是V4(?!)
2026-04-08 12:51:42
被315点名的万亿隐秘生意:“污染”DeepSeek
2026-03-16 18:20:37
DeepSeek网页、APP服务出现重大中断
2026-03-30 08:41:20
两个月斩获微软四笔订单 “英版甲骨文”或计划明年IPO
2025-10-16 00:43:21
DeepSeek网页版大升级!随后宕机11小时崩上热搜,新模型真的来了
2026-03-30 11:42:07
六大AI大模型展开美股投资竞赛:重仓英伟达的Deepseek再次领跑
2025-10-28 18:00:23
DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配
2025-09-30 10:23:35
702 文章
588245 浏览
24小时热文
更多
-
2026-04-24 19:29:38 -
2026-04-24 18:31:29 -
2026-04-24 18:30:24