2月18日,梁文锋带领DeepSeek团队发布新研究,论文发布仅3小时即获30多万浏览量。他们提出一种名为NSA的新注意力机制,用于超快速的长上下文训练与推理。NSA包括动态分层稀疏策略、粗粒度的token压缩及细粒度的token选择,使推理速度提升11.6倍,同时降低预训练成本。
梁文锋亲自参与并提交了这篇论文,显示出他对新成果的重视。DeepSeek填补了现有稀疏注意力机制的不足,特别是针对长上下文建模和复杂推理的需求。传统注意力机制在长序列下运行缓慢,NSA通过选择性计算关键query-key对,大幅降低了计算开销,提升了模型性能。
NSA支持端到端训练,结合硬件优化,实现了显著的速度提升。此外,新研究通过Triton开发了与硬件高度兼容的稀疏注意力内核。测试显示,NSA在多个基准测试中表现优异,尤其是在长文本和思维链推理任务中。
NSA还验证了两年前清华大学姚班的一项结论,即在处理复杂数学问题时,减少tokens数量可以提高准确性和效率。DeepSeek未来可能继续优化模型在长文本和代码库分析中的表现,以提升其推理能力和实用性。
原文链接
本文链接:https://kx.umi6.com/article/14177.html
转载请注明文章出处
相关推荐
换一换
MAU被豆包反超,Deepseek挤了点牙膏
2025-10-21 15:28:27
DeepSeek官方点赞元宝,罕见现身互动
2025-12-24 17:46:41
DeepSeek 下一代技术提前曝光,梁文锋署名论文获 ACL 2025 最佳论文奖
2025-08-01 17:03:23
调查 | 爆火仅半年,DeepSeek在银行业已“泯然众模型”?三大障碍成为拦路虎
2025-08-04 11:56:14
淘宝上卖9块9的DeepSeek,让我看到了被折叠的魔幻世界
2025-09-16 12:10:49
「DeepSeek们」回答位变广告位
2025-08-05 15:15:26
出圈一周年,DeepSeek的变与不变
2026-01-16 15:50:22
DeepSeek 新模型曝光:MODEL1 代码预示新架构,最快有望 2 月发布
2026-01-21 09:02:53
梁文锋代表DeepSeek,他代表梁文锋
2025-11-16 12:31:32
DeepSeek 通知线上模型版本升级至 V3.1,上下文长度拓展至 128k
2025-08-19 21:05:45
六大AI大模型展开美股投资竞赛:重仓英伟达的Deepseek再次领跑
2025-10-28 18:00:23
Transformer作者:DeepSeek才有搞头,OpenAI指望不上了
2025-09-12 11:09:05
deepseek关联公司公布大语言模型部署方法专利
2025-08-01 14:04:10
610 文章
395160 浏览
24小时热文
更多
-
2026-01-23 00:20:44 -
2026-01-22 23:18:34 -
2026-01-22 23:17:29