1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

DeepSeek的新注意力机制论文再次引发热议。论文提出了一种名为NSA(Native Sparse Attention)的可原生训练的稀疏注意力机制,旨在解决大模型上下文建模中计算成本高的问题。

实验显示,NSA在64k上下文解码时,前向传播速度提升9倍,反向传播速度提升6倍,解码速度提升11.6倍,且不影响性能。NSA通过动态分层稀疏策略、粗粒度Token压缩和细粒度Token选择来实现这些改进。

NSA的核心方法包括: - 动态分层稀疏策略 - 粗粒度Token压缩 - 细粒度Token选择

这些方法通过压缩、选择和滑动窗口策略优化注意力输出,保持高稀疏率,减少计算量并避免信息丢失。NSA在多项基准测试中表现出色,特别是在推理任务DROP中,性能显著提升。

研究人员使用27B参数规模的模型进行实验,结果表明NSA不仅收敛稳定,而且损失值更低。此外,NSA在8-GPU A100系统上的训练加速效果显著,尤其是在64k上下文长度时。

论文作者为DeepSeek团队,梁文锋亲自提交至arXiv。这一进展引发了关于大模型训练效率的新思考,可能开启一条更高效、更本地化的路径。

原文链接
本文链接:https://kx.umi6.com/article/13799.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
DeepSeek急招Agent方向!一口气放17个岗位,重度Vibe Coding优先
2026-03-25 15:37:07
美国AI巨头炮轰DeepSeek 只为给五角大楼递投名状
2026-02-26 07:32:42
DeepSeek新模型上线
2025-09-30 11:25:43
DeepSeek更新GitHub仓库 新模型“MODEL1”曝光
2026-01-21 11:03:39
AI实盘操作,DeepSeek暴赚,Gemini崩盘,网友:专业对口就是不一样
2025-10-20 21:13:47
DeepSeek的一次小更新:暴打OpenAI 追上Gemini
2025-12-03 00:44:54
DeepSeek 新模型曝光:MODEL1 代码预示新架构,最快有望 2 月发布
2026-01-21 09:02:53
DeepSeek:正测试新的长文本模型结构 支持1M上下文
2026-02-13 20:39:39
DeepSeek“点燃”国产芯片 FP8能否引领行业新标准?
2025-08-24 11:14:54
DeepSeek据悉拟募资最高500亿元人民币
2026-05-08 21:41:39
DeepSeek发布Agent Harness相关岗位 或推智能体产品
2026-05-20 16:47:33
DeepSeek 出现服务故障:网页 / API 性能异常,已进行修复
2025-11-25 16:59:50
不是接入DeepSeek,就叫AI制药
2026-01-17 16:35:32
24小时热文
更多
扫一扫体验小程序