1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

DeepSeek的最新论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》引起了广泛关注。该论文介绍了一种名为NSA的新型稀疏注意力机制,适用于超快长上下文训练和推理,且具有硬件对齐和本地可训练特性。

NSA旨在解决现有稀疏注意力机制的问题。传统方法虽能提高计算速度,但仍面临巨大运算量。DeepSeek-V2的MLA通过低秩分解KV矩阵,减少了显存占用。然而,这种方法仍会平均降低重要信息的重要性。

NSA采用“三合一”策略,分为压缩、选择性保留和滑动窗口三阶段。首先,压缩阶段保留粗颗粒度的token模块;其次,选择性保留阶段根据相关性选出关键模块;最后,滑动窗口仅获取局部最近的完整token序列。这种机制不仅节省显存,还能恢复压缩丢失的信息。

NSA还引入了硬件对齐系统和训练感知设计,支持高效部署和端到端训练。测试结果显示,NSA在某些基准测试上表现优于完整注意力机制,解码速度提升了11.6倍,正向和反向阶段分别提速9倍和6倍。

NSA有望解决国产大模型在GPU芯片上的瓶颈问题,并可能实现从推理到训练的全链条国产化。尽管论文未披露所有工程细节,但其他公司复现并不难。

原文链接
本文链接:https://kx.umi6.com/article/13797.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
微软机房大量英伟达GPU开始吃灰……
2025-11-04 13:13:42
Similarweb 报告 13 日全球 AI 流量:Gemini 成 ChatGPT 最强劲对手,DeepSeek 正收复失地
2025-11-15 12:48:52
需求塞爆服务器,OpenAI、谷歌对 Sora 和 Nano Banana Pro 采取“限流”措施
2025-11-29 23:44:54
被AI「摩擦」的十天:一个普通人的上手记
2025-08-16 18:28:03
奥尔特曼:DeepSeek 团队很有才华,但他们没找到比 OpenAI 更高效的方法
2025-07-21 21:22:47
消息称 DeepSeek 正开发更先进模型:具备 AI 智能体能力,剑指年底发布
2025-09-04 18:07:12
DeepSeek又更新了,期待梁文锋“炸场”
2025-08-21 09:28:01
GPT-5之后,奥特曼向左,梁文锋向右
2025-08-15 17:17:56
DeepSeek真的不行了吗
2025-07-29 19:35:17
DeepSeek发布两款新模型
2025-12-01 19:31:03
DeepSeek对“王一博案”道歉?假新闻!
2025-07-03 23:32:06
K2开源大模型,会是Kimi的DeepSeek时刻吗?
2025-07-14 11:19:10
性能至少翻倍 DeepSeek官宣支持下一代国产AI芯片
2025-08-21 19:40:24
24小时热文
更多
扫一扫体验小程序