原生稀疏注意力

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

DeepSeek 下一代技术提前曝光，梁文锋署名论文获 ACL 2025 最佳论文奖

在2025年ACL颁奖典礼上，DeepSeek梁文锋作为通讯作者与北京大学联合发表的论文获最佳论文奖。该研究提出原生稀疏注意力（NSA）机制，通过算法与硬件协同优化，使长文本处理速度提升11倍，性能超越传统全注意力模型。一作袁境阳透露，技术可扩展上下文至1百万tokens，或用于下一代DeepSeek-V4及R2模型。实验显示，NSA在多项基准测试中表现优异，尤其在复杂推理和代码理解任务中显著领先。此外，大会还评选出其他3篇最佳论文，分别来自北大、斯坦福等团队，涉及模型对齐弹性、公平性差异感知及生成采样机制研究。

原文链接

数据炼金师

08-01 17:03:23

ACL 2025

DeepSeek

原生稀疏注意力

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek NSA论文荣膺ACL桂冠，知乎答主热议一线科研成果

在ACL 2025颁奖礼上，DeepSeek与北京大学联合发表的论文荣获最佳论文奖，其提出的原生稀疏注意力（NSA）机制为自然语言处理效率突破提供了新思路。知乎答主热议这一技术，李明殊以购物比喻解释NSA机制，Nil-9和锤炼小助手从技术角度深入解析其原理。清华大学刘知远团队此前发布的InfLLM项目及微软亚研院、月之暗面的相关研究均推动了稀疏注意力的发展。知乎作为科技讨论平台，已聚集1600万AI学习者和356万创作者，成为开发者交流前沿成果的重要阵地。

原文链接

Oasis

08-01 13:00:21

原生稀疏注意力

知乎

自然语言处理

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek下一代技术提前曝光

在2025年7月31日的ACL 2025颁奖典礼上，DeepSeek与北京大学联合发表的论文荣获*论文奖。其提出的原生稀疏注意力（NSA）机制通过算法与硬件协同优化，将长文本处理速度提升11倍，且性能超越传统全注意力模型。一作袁境阳透露，该技术可扩展上下文至1百万tokens，可能应用于下一代DeepSeek-V4及DeepSeek-R2模型。研究显示，NSA在多项基准测试中表现优异，尤其在复杂推理和长文本任务中显著领先。此外，会议还评选出其他三篇*论文，分别聚焦语言模型对齐弹性、公平性差异感知及大模型采样机制理论，为AI领域带来新洞见。

原文链接

虚拟微光

07-31 09:02:46

DeepSeek-V4

原生稀疏注意力

长文本处理

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek下一代技术提前曝光，梁文锋署名论文获ACL2025最佳论文奖

2025年7月31日，DeepSeek团队在ACL 2025上荣获最佳论文奖。梁文锋作为通讯作者，与北京大学联合发表的论文提出原生稀疏注意力（NSA）机制，通过算法与硬件协同优化，使长文本处理速度提升11倍，且性能超越传统全注意力模型。论文一作袁境阳透露，该技术可将上下文扩展至1百万tokens，并可能应用于下一代DeepSeek-V4及DeepSeek-R2模型。NSA在多项基准测试中表现优异，尤其在长文本和复杂推理任务上显著领先。此外，本次ACL还评选出其他三篇最佳论文，分别来自北大、斯坦福等团队，研究涉及模型对齐弹性、公平性差异感知及LLM采样机制理论。

原文链接

数据炼金师

07-31 09:00:51

ACL2025

DeepSeek

原生稀疏注意力

分享至

打开微信扫一扫

内容投诉

生成图片

加载更多