DeepSeek的新注意力机制论文再次引发热议。论文提出了一种名为NSA(Native Sparse Attention)的可原生训练的稀疏注意力机制,旨在解决大模型上下文建模中计算成本高的问题。
实验显示,NSA在64k上下文解码时,前向传播速度提升9倍,反向传播速度提升6倍,解码速度提升11.6倍,且不影响性能。NSA通过动态分层稀疏策略、粗粒度Token压缩和细粒度Token选择来实现这些改进。
NSA的核心方法包括: - 动态分层稀疏策略 - 粗粒度Token压缩 - 细粒度Token选择
这些方法通过压缩、选择和滑动窗口策略优化注意力输出,保持高稀疏率,减少计算量并避免信息丢失。NSA在多项基准测试中表现出色,特别是在推理任务DROP中,性能显著提升。
研究人员使用27B参数规模的模型进行实验,结果表明NSA不仅收敛稳定,而且损失值更低。此外,NSA在8-GPU A100系统上的训练加速效果显著,尤其是在64k上下文长度时。
论文作者为DeepSeek团队,梁文锋亲自提交至arXiv。这一进展引发了关于大模型训练效率的新思考,可能开启一条更高效、更本地化的路径。
原文链接
本文链接:https://kx.umi6.com/article/13799.html
转载请注明文章出处
相关推荐
.png)
换一换
西门子 CTO 大夸 DeepSeek:预计三五年后西门子的所有产品都将融入 AI 元素
2025-06-25 15:32:02
小扎回应Llama4对比DeepSeek:榜单有缺陷,等推理模型出来再比
2025-04-30 19:06:29
证监会主席吴清:全球科技创新进入密集活跃期 诸多领域都迎来了Deepseek
2025-06-18 11:39:02
DeepSeek对“王一博案”道歉?假新闻!
2025-07-03 23:32:06
腾讯在AI上做对了什么?有哪些困境?
2025-05-27 09:15:32
德国要求苹果与谷歌下架DeepSeek应用 中方已多次明确表态
2025-06-28 12:19:15
DeepSeek V3.1突现离谱Bug:“极”字满屏乱蹦,开发者一脸懵逼
2025-08-26 14:46:26
穿过DeepSeek的窄门
2025-05-07 09:06:34
罕见千万级大单:山西临汾将打造“AI 医院”,部署 DeepSeek
2025-06-25 17:31:56
DeepSeek核心高管离职创业,瞄准Agent赛道|独家
2025-06-09 16:30:51
玩完 DeepSeek R1 新版,外国网友又「蚌埠住了」?
2025-06-03 10:50:11
DeepSeek开源新版R1 媲美OpenAI最高o3模型
2025-05-29 05:51:14
OpenAI发布开源模型“王者归来”,DeepSeek剧情会反转吗
2025-08-06 12:31:08
498 文章
166036 浏览
24小时热文
更多

-
2025-09-07 00:40:01
-
2025-09-06 23:39:46
-
2025-09-06 22:39:24