DeepSeek的新注意力机制论文再次引发热议。论文提出了一种名为NSA(Native Sparse Attention)的可原生训练的稀疏注意力机制,旨在解决大模型上下文建模中计算成本高的问题。
实验显示,NSA在64k上下文解码时,前向传播速度提升9倍,反向传播速度提升6倍,解码速度提升11.6倍,且不影响性能。NSA通过动态分层稀疏策略、粗粒度Token压缩和细粒度Token选择来实现这些改进。
NSA的核心方法包括: - 动态分层稀疏策略 - 粗粒度Token压缩 - 细粒度Token选择
这些方法通过压缩、选择和滑动窗口策略优化注意力输出,保持高稀疏率,减少计算量并避免信息丢失。NSA在多项基准测试中表现出色,特别是在推理任务DROP中,性能显著提升。
研究人员使用27B参数规模的模型进行实验,结果表明NSA不仅收敛稳定,而且损失值更低。此外,NSA在8-GPU A100系统上的训练加速效果显著,尤其是在64k上下文长度时。
论文作者为DeepSeek团队,梁文锋亲自提交至arXiv。这一进展引发了关于大模型训练效率的新思考,可能开启一条更高效、更本地化的路径。
原文链接
本文链接:https://kx.umi6.com/article/13799.html
转载请注明文章出处
相关推荐
换一换
AI味,越来越让人受不了了
2025-06-30 17:46:15
DeepSeek发布梁文锋署名新论文 开源相关记忆模块Engram
2026-01-13 09:25:44
DeepSeek真的不行了吗
2025-07-29 19:35:17
DeepSeek:已在平台内对 AI 生成合成内容添加标识,用户不得恶意删除
2025-09-01 18:24:35
QuestMobile 报告:豆包月活超越 DeepSeek,夺 8 月中国原生 AI App 月活第一
2025-09-16 18:17:35
中国大模型首登Nature封面!DeepSeek首次披露:R1训练只花200万
2025-09-18 13:51:50
别太相信DeepSeek
2025-08-14 18:02:41
DeepSeek流量下滑,这半年梁文锋都干了啥?
2025-07-14 14:22:04
出圈一周年,DeepSeek的变与不变
2026-01-16 15:50:22
报道称DeepSeek计划年底前发布AI智能体 公司暂无回应
2025-09-04 17:05:24
六大AI拿1万美元真实交易:DeepSeek最能赚,GPT-5亏麻了,AI能让周杰伦少亏上亿
2025-10-20 17:12:32
黄仁勋新年第一场演讲提了DeepSeek 推动了整个行业变革
2026-01-06 08:54:05
DeepSeek新模型上线!引入DSA新稀疏注意力,还又狙了CUDA一枪
2025-09-29 19:13:01
660 文章
412393 浏览
24小时热文
更多
-
2026-01-23 09:43:53 -
2026-01-23 08:40:41 -
2026-01-23 06:34:26