2月18日,梁文锋带领DeepSeek团队发布新研究,论文发布仅3小时即获30多万浏览量。他们提出一种名为NSA的新注意力机制,用于超快速的长上下文训练与推理。NSA包括动态分层稀疏策略、粗粒度的token压缩及细粒度的token选择,使推理速度提升11.6倍,同时降低预训练成本。
梁文锋亲自参与并提交了这篇论文,显示出他对新成果的重视。DeepSeek填补了现有稀疏注意力机制的不足,特别是针对长上下文建模和复杂推理的需求。传统注意力机制在长序列下运行缓慢,NSA通过选择性计算关键query-key对,大幅降低了计算开销,提升了模型性能。
NSA支持端到端训练,结合硬件优化,实现了显著的速度提升。此外,新研究通过Triton开发了与硬件高度兼容的稀疏注意力内核。测试显示,NSA在多个基准测试中表现优异,尤其是在长文本和思维链推理任务中。
NSA还验证了两年前清华大学姚班的一项结论,即在处理复杂数学问题时,减少tokens数量可以提高准确性和效率。DeepSeek未来可能继续优化模型在长文本和代码库分析中的表现,以提升其推理能力和实用性。
原文链接
本文链接:https://kx.umi6.com/article/14177.html
转载请注明文章出处
相关推荐
换一换
DeepSeek下一代技术提前曝光,梁文锋署名论文获ACL2025最佳论文奖
2025-07-31 09:00:51
DeepSeek又更新了,期待梁文锋“炸场”
2025-08-21 09:28:01
DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配
2025-09-30 10:23:35
六大AI拿1万美元真实交易:DeepSeek最能赚,GPT-5亏麻了,AI能让周杰伦少亏上亿
2025-10-20 17:12:32
被AI「摩擦」的十天:一个普通人的上手记
2025-08-16 18:28:03
DeepSeek成了硅谷最大的“不能说的秘密”
2025-09-23 17:20:46
美国AI巨头炮轰DeepSeek 只为给五角大楼递投名状
2026-02-26 07:32:42
罗福莉加入小米后首秀,解释 MiMo-V2-Flash 模型如何做到推理速度飞快
2025-12-17 11:39:04
北大团队改造DeepSeek注意力,速度快四倍还不丢精度
2026-04-07 00:20:16
性能至少翻倍 DeepSeek官宣支持下一代国产AI芯片
2025-08-21 19:40:24
DeepSeek:正测试新的长文本模型结构 支持1M上下文
2026-02-13 20:39:39
DeepSeek线上模型升级:当前版本号 DeepSeek-V3.1-Terminus
2025-09-22 21:05:30
DeepSeek真的不行了吗
2025-07-29 19:35:17
674 文章
531340 浏览
24小时热文
更多
-
2026-04-24 15:20:44 -
2026-04-24 15:19:39 -
2026-04-24 15:18:33