1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

DeepSeek的新注意力机制论文再次引发热议。论文提出了一种名为NSA(Native Sparse Attention)的可原生训练的稀疏注意力机制,旨在解决大模型上下文建模中计算成本高的问题。

实验显示,NSA在64k上下文解码时,前向传播速度提升9倍,反向传播速度提升6倍,解码速度提升11.6倍,且不影响性能。NSA通过动态分层稀疏策略、粗粒度Token压缩和细粒度Token选择来实现这些改进。

NSA的核心方法包括: - 动态分层稀疏策略 - 粗粒度Token压缩 - 细粒度Token选择

这些方法通过压缩、选择和滑动窗口策略优化注意力输出,保持高稀疏率,减少计算量并避免信息丢失。NSA在多项基准测试中表现出色,特别是在推理任务DROP中,性能显著提升。

研究人员使用27B参数规模的模型进行实验,结果表明NSA不仅收敛稳定,而且损失值更低。此外,NSA在8-GPU A100系统上的训练加速效果显著,尤其是在64k上下文长度时。

论文作者为DeepSeek团队,梁文锋亲自提交至arXiv。这一进展引发了关于大模型训练效率的新思考,可能开启一条更高效、更本地化的路径。

原文链接
本文链接:https://kx.umi6.com/article/13799.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
梁文锋等来及时雨
2025-07-15 17:50:04
DeepSeek更新GitHub仓库 新模型“MODEL1”曝光
2026-01-21 11:03:39
美国AI巨头炮轰DeepSeek 只为给五角大楼递投名状
2026-02-26 07:32:42
被曝蒸馏DeepSeek还造假!欧版OpenAI塌方了
2025-08-14 16:57:45
半年不到 DeepSeek真已跌落神坛吗!我看未必 深扒背后原因
2025-07-24 13:06:29
MAU被豆包反超,Deepseek挤了点牙膏
2025-10-21 15:28:27
QuestMobile 报告:豆包月活超越 DeepSeek,夺 8 月中国原生 AI App 月活第一
2025-09-16 18:17:35
超 346 款生成式 AI 完成备案:DeepSeek 上线 20 天全球日活跃用户即突破 3000 万
2025-07-21 11:16:03
「DeepSeek们」回答位变广告位
2025-08-05 15:15:26
美称中国一人工智能企业违反美出口管制 外交部:中方已多次表明原则立场
2026-02-24 15:53:46
六大AI大模型展开美股投资竞赛:重仓英伟达的Deepseek再次领跑
2025-10-28 18:00:23
Similarweb 报告 13 日全球 AI 流量:Gemini 成 ChatGPT 最强劲对手,DeepSeek 正收复失地
2025-11-15 12:48:52
DeepSeek连更GitHub,华尔街回想起被支配的恐惧:“DeepSeek第二时刻”要来了
2026-02-24 13:45:27
24小时热文
更多
扫一扫体验小程序