2025年7月31日,DeepSeek与北京大学联合发表的论文《Native Sparse Attention》获ACL最佳论文奖。该研究提出一种新方法NSA(原生稀疏注意力),首次将稀疏注意力引入完整训练流程,性能不降反升,推理速度提升11倍。NSA通过“粗读摘要、精读重点、强记最近”三种策略动态分配注意力,在长文本处理中表现优异,如64k长度序列的信息检索准确率达100%。此技术已在27B模型上完成预训练验证,未来或大幅降低AI使用成本,提升效率。搭载NSA的下一代DeepSeek模型备受期待。
原文链接
本文链接:https://kx.umi6.com/article/22791.html
转载请注明文章出处
相关推荐
换一换
英伟达提出全新 Star Attention:10 倍加速大语言模型推理,登顶 Hugging Face 论文榜
2024-12-05 14:04:18
R2还没来,但DeepSeek的秘密武器已经“剧透”了
2025-08-01 09:10:49
DeepSeek推理最高提速6倍!开源研究:加装「思维进度条」,计算量减少30%
2025-07-08 14:44:52
腾讯云将全面升级云基础设施
2025-09-16 15:16:55
ChatGPT 涉嫌“诱导”美国 16 岁少年自杀,家属指控 OpenAI 事发前放松安全措施
2025-10-24 15:41:04
我国拟修改网络安全法促进人工智能健康发展
2025-10-24 18:49:31
快手进军AI编程!“模型+工具+平台”一口气放三个大招
2025-10-24 16:44:56
全国人大常委会法工委:网络安全法拟增加促进AI安全与发展内容
2025-10-23 18:13:26
OpenAI 预告“AI 浏览器”ChatGPT Atlas 未来更新:标签组、广告拦截器等
2025-10-24 09:30:10
Reddit 起诉 Perplexity,指控后者未经授权为 AI 抓取和使用数据
2025-10-23 16:09:59
“996”算偷懒 硅谷AI精英每周狂干100小时!
2025-10-24 12:38:25
字节跳动 Seed3D 1.0 发布:一张图就能生成高精度 3D 模型
2025-10-23 14:05:22
百镜大战再添把火!阿里夸克AI眼镜即将开启预售
2025-10-23 15:12:35
524 文章
241998 浏览
24小时热文
更多
-
2025-10-24 19:49:44 -
2025-10-24 18:49:31 -
2025-10-24 18:49:20