2025年7月31日,DeepSeek与北京大学联合发表的论文《Native Sparse Attention》获ACL最佳论文奖。该研究提出一种新方法NSA(原生稀疏注意力),首次将稀疏注意力引入完整训练流程,性能不降反升,推理速度提升11倍。NSA通过“粗读摘要、精读重点、强记最近”三种策略动态分配注意力,在长文本处理中表现优异,如64k长度序列的信息检索准确率达100%。此技术已在27B模型上完成预训练验证,未来或大幅降低AI使用成本,提升效率。搭载NSA的下一代DeepSeek模型备受期待。
原文链接
本文链接:https://kx.umi6.com/article/22791.html
转载请注明文章出处
相关推荐
.png)
换一换
R2还没来,但DeepSeek的秘密武器已经“剧透”了
2025-08-01 09:10:49
英伟达提出全新 Star Attention:10 倍加速大语言模型推理,登顶 Hugging Face 论文榜
2024-12-05 14:04:18
DeepSeek推理最高提速6倍!开源研究:加装「思维进度条」,计算量减少30%
2025-07-08 14:44:52
中信证券:AI产业端Agent和多模态两大主线有望持续引领
2025-08-01 09:26:15
助力“个人超级智能”愿景!Meta又盯上两家AI视频公司 企图纳入麾下
2025-08-01 18:07:55
国家发改委:目前处在人工智能应用落地的关键窗口期
2025-08-01 10:58:45
阿里通义千问推出编程模型Qwen3-Coder-Flash
2025-08-01 09:24:35
诺瓦聚变完成5亿元天使轮融资,推动核聚变能源商业化
2025-08-01 15:03:23
没敲过代码的我 半小时聊出一个能用能分享的“小程序”
2025-08-01 09:14:47
对话智元机器人合伙人姚卯青:具身智能出路广于汽车
2025-08-01 17:05:05
上海:加快打造具有国际影响力的人工智能发展高地
2025-08-01 09:23:28
他山科技多款新品亮相 WAIC 展会,展现机器人触觉技术新成果
2025-08-01 11:58:42
AI拿下奥数IMO金牌,但数学界的AlphaGo时刻还没来
2025-08-01 10:58:23
442 文章
76186 浏览
24小时热文
更多

-
2025-08-02 14:20:17
-
2025-08-02 14:19:08
-
2025-08-02 14:17:45