1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

DeepSeek的新注意力机制论文再次引发热议。论文提出了一种名为NSA(Native Sparse Attention)的可原生训练的稀疏注意力机制,旨在解决大模型上下文建模中计算成本高的问题。

实验显示,NSA在64k上下文解码时,前向传播速度提升9倍,反向传播速度提升6倍,解码速度提升11.6倍,且不影响性能。NSA通过动态分层稀疏策略、粗粒度Token压缩和细粒度Token选择来实现这些改进。

NSA的核心方法包括: - 动态分层稀疏策略 - 粗粒度Token压缩 - 细粒度Token选择

这些方法通过压缩、选择和滑动窗口策略优化注意力输出,保持高稀疏率,减少计算量并避免信息丢失。NSA在多项基准测试中表现出色,特别是在推理任务DROP中,性能显著提升。

研究人员使用27B参数规模的模型进行实验,结果表明NSA不仅收敛稳定,而且损失值更低。此外,NSA在8-GPU A100系统上的训练加速效果显著,尤其是在64k上下文长度时。

论文作者为DeepSeek团队,梁文锋亲自提交至arXiv。这一进展引发了关于大模型训练效率的新思考,可能开启一条更高效、更本地化的路径。

原文链接
本文链接:https://kx.umi6.com/article/13799.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
DeepSeek 通知线上模型版本升级至 V3.1,上下文长度拓展至 128k
2025-08-19 21:05:45
DeepSeek刷屏论文背后:除了梁文锋,还有一个18岁中国高中生,曾写出神级提示词
2025-09-19 11:14:40
淘宝上卖9块9的DeepSeek,让我看到了被折叠的魔幻世界
2025-09-16 12:10:49
DeepSeek新大招曝光:下一步智能体
2025-09-05 10:15:28
半年不到 DeepSeek真已跌落神坛吗!我看未必 深扒背后原因
2025-07-24 13:06:29
Meta 重金抢人,明星云集就能复制 DeepSeek 的成功吗?
2025-07-17 17:30:33
DeepSeek服务恢复正常 此前崩溃约12小时
2026-03-30 10:43:55
DeepSeek 开年发布新论文:提出全新 mHC 架构,梁文锋现身作者名单
2026-01-01 17:23:53
DeepSeek终于把OpenAI逼急了
2025-08-06 16:35:39
DeepSeek又一论文上新
2026-02-27 15:54:06
微软研报称 DeepSeek 在中国 AI 市场份额达 89%,在白俄罗斯达 56%
2026-01-13 16:44:20
超 346 款生成式 AI 完成备案:DeepSeek 上线 20 天全球日活跃用户即突破 3000 万
2025-07-21 11:16:03
DeepSeek连更GitHub 华尔街回想起被支配的恐惧
2026-02-24 15:51:36
24小时热文
更多
扫一扫体验小程序