2月18日,梁文锋带领DeepSeek团队发布新研究,论文发布仅3小时即获30多万浏览量。他们提出一种名为NSA的新注意力机制,用于超快速的长上下文训练与推理。NSA包括动态分层稀疏策略、粗粒度的token压缩及细粒度的token选择,使推理速度提升11.6倍,同时降低预训练成本。
梁文锋亲自参与并提交了这篇论文,显示出他对新成果的重视。DeepSeek填补了现有稀疏注意力机制的不足,特别是针对长上下文建模和复杂推理的需求。传统注意力机制在长序列下运行缓慢,NSA通过选择性计算关键query-key对,大幅降低了计算开销,提升了模型性能。
NSA支持端到端训练,结合硬件优化,实现了显著的速度提升。此外,新研究通过Triton开发了与硬件高度兼容的稀疏注意力内核。测试显示,NSA在多个基准测试中表现优异,尤其是在长文本和思维链推理任务中。
NSA还验证了两年前清华大学姚班的一项结论,即在处理复杂数学问题时,减少tokens数量可以提高准确性和效率。DeepSeek未来可能继续优化模型在长文本和代码库分析中的表现,以提升其推理能力和实用性。
原文链接
本文链接:https://kx.umi6.com/article/14177.html
转载请注明文章出处
相关推荐
.png)
换一换
支持消费级显卡部署:腾讯混元 3D 世界模型宣布推出 Lite 版本,推理速度提升 3 倍以上且精度损失 <1%
2025-08-15 19:20:35
黄仁勋力赞DeepSeek 对中国创新能力充满信心
2025-07-21 04:12:05
好险,差点被DeepSeek幻觉害死
2025-07-09 15:08:10
Meta 重金抢人,明星云集就能复制 DeepSeek 的成功吗?
2025-07-17 17:30:33
国产开源模型强势追击!DeepSeek与OpenAI最新模型实测对决
2025-05-29 16:40:22
DeepSeek V3.1突现离谱Bug:“极”字满屏乱蹦,开发者一脸懵逼
2025-08-26 14:46:26
李想回应DeepSeek爆火时自己怎么过的春节:带孩子看了哪吒2
2025-05-07 21:18:12
罕见千万级大单:山西临汾将打造“AI 医院”,部署 DeepSeek
2025-06-25 17:31:56
DeepSeek R1 模型完成小版本试升级
2025-05-28 21:25:08
大模型退火之后,AI手机还好吗
2025-06-25 08:26:26
字节跳动Seed团队发布扩散语言模型 每秒推理速度2146 tokens
2025-08-01 09:24:01
DeepSeek“点燃”国产芯片 FP8能否引领行业新标准?
2025-08-24 11:14:54
DeepSeek催化下,芯片带领沪指突破3800点
2025-08-22 20:52:41
476 文章
164048 浏览
24小时热文
更多

-
2025-09-07 00:40:01
-
2025-09-06 23:39:46
-
2025-09-06 22:39:24