2025年7月31日,DeepSeek与北京大学联合发表的论文《Native Sparse Attention》获ACL最佳论文奖。该研究提出一种新方法NSA(原生稀疏注意力),首次将稀疏注意力引入完整训练流程,性能不降反升,推理速度提升11倍。NSA通过“粗读摘要、精读重点、强记最近”三种策略动态分配注意力,在长文本处理中表现优异,如64k长度序列的信息检索准确率达100%。此技术已在27B模型上完成预训练验证,未来或大幅降低AI使用成本,提升效率。搭载NSA的下一代DeepSeek模型备受期待。
原文链接
本文链接:https://kx.umi6.com/article/22791.html
转载请注明文章出处
相关推荐
换一换
DeepSeek的一次小更新:暴打OpenAI 追上Gemini
2025-12-03 00:44:54
小米给KV Cache减负80%!MiMo团队推出混合稀疏注意力架构
2026-02-07 19:19:57
英伟达提出全新 Star Attention:10 倍加速大语言模型推理,登顶 Hugging Face 论文榜
2024-12-05 14:04:18
GLM-5架构曝光,智谱两日涨近60%:采用DeepSeek同款稀疏注意力
2026-02-10 16:24:51
腾讯云将全面升级云基础设施
2025-09-16 15:16:55
北大团队改造DeepSeek注意力,速度快四倍还不丢精度
2026-04-07 00:20:16
清华刘知远团队论文:最小化结构改动,短文本到长文本丝滑升级 | ICLR 2026
2026-02-06 20:12:11
DeepSeek推理最高提速6倍!开源研究:加装「思维进度条」,计算量减少30%
2025-07-08 14:44:52
阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一
2026-06-05 14:59:31
Gartner 高挺:机器人产业迈入 GPT-2 发展周期,企业落地切忌盲目布局人形机器人
2026-06-05 10:57:10
互联网历史上首次!机器人流量首度超越人类:占比57.5%
2026-06-07 14:36:36
智源&清华合作成果登上Science:脑科学多模态基础模型Brainμ支撑揭示“记忆-睡眠”调控的神经机制
2026-06-05 19:13:44
月薪高达13万元!科技大厂掀起AI人才争夺战:35岁从业者成抢手资源
2026-06-08 12:26:28
717 文章
634189 浏览
24小时热文
更多
-
2026-06-08 21:46:02 -
2026-06-08 19:42:13 -
2026-06-08 19:40:56