2025年7月31日,DeepSeek与北京大学联合发表的论文《Native Sparse Attention》获ACL最佳论文奖。该研究提出一种新方法NSA(原生稀疏注意力),首次将稀疏注意力引入完整训练流程,性能不降反升,推理速度提升11倍。NSA通过“粗读摘要、精读重点、强记最近”三种策略动态分配注意力,在长文本处理中表现优异,如64k长度序列的信息检索准确率达100%。此技术已在27B模型上完成预训练验证,未来或大幅降低AI使用成本,提升效率。搭载NSA的下一代DeepSeek模型备受期待。
原文链接
本文链接:https://kx.umi6.com/article/22791.html
转载请注明文章出处
相关推荐
换一换
小米给KV Cache减负80%!MiMo团队推出混合稀疏注意力架构
2026-02-07 19:19:57
DeepSeek的一次小更新:暴打OpenAI 追上Gemini
2025-12-03 00:44:54
腾讯云将全面升级云基础设施
2025-09-16 15:16:55
清华刘知远团队论文:最小化结构改动,短文本到长文本丝滑升级 | ICLR 2026
2026-02-06 20:12:11
GLM-5架构曝光,智谱两日涨近60%:采用DeepSeek同款稀疏注意力
2026-02-10 16:24:51
英伟达提出全新 Star Attention:10 倍加速大语言模型推理,登顶 Hugging Face 论文榜
2024-12-05 14:04:18
DeepSeek推理最高提速6倍!开源研究:加装「思维进度条」,计算量减少30%
2025-07-08 14:44:52
R2还没来,但DeepSeek的秘密武器已经“剧透”了
2025-08-01 09:10:49
超智算智能算力中心揭牌暨AI算力设备点亮仪式成功举行
2026-03-06 20:29:36
交通运输部部长刘伟:“十五五”时期重点深入实施“人工智能+”行动
2026-03-09 11:33:23
彻底告别VE与VAE!商汤硬核重构多模态:砍掉所有中间编码器
2026-03-07 13:31:18
龙虾最大痛点被官方插件升级!对话永不忘记,GPT和Gemini最强模型都可接入
2026-03-09 13:43:10
全网刷屏的“龙虾” 真的劝你不要盲目跟风!
2026-03-09 15:51:25
650 文章
453117 浏览
24小时热文
更多
-
2026-03-10 10:03:26 -
2026-03-10 10:02:35 -
2026-03-10 09:02:22