稀疏注意力 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

DeepSeek新模型上线

2025年9月30日，DeepSeek发布最新模型DeepSeek-V3.2-Exp，引入全新稀疏注意力机制DeepSeek Sparse Attention（DSA），显著提升长文本处理效率与推理性能，同时开源TileLang和CUDA双版本GPU算子，便于社区研究与迭代。官方App、网页端、小程序均已同步更新，并推出API 5折起优惠活动。此外，DeepSeek-V3.2-Exp在多项公开测评中表现与前代V3.1-Terminus持平，但在处理128K长上下文时成本更低。同日，智谱GLM-4.6也被曝光正在开发中，其上一代旗舰GLM-4.5已标注为旧版。国庆前夕，AI领域竞争愈发激烈。

原文链接

AI幻想空间站

09-30 11:25:43

DeepSeek

TileLang

稀疏注意力机制

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek新发布

2025年9月29日，DeepSeek正式发布并开源实验性版本V3.2-Exp，引入稀疏注意力机制优化长文本处理效率。中信建投分析师评价其易用性大幅提升。此次更新同步上线官方App、网页端和小程序，API价格大幅降低，开发者调用成本减少超50%。同时，DeepSeek开源TileLang与CUDA双版本GPU算子，建议社区使用TileLang版本以加速研究迭代。TileLang由北大团队开发，显著减少代码量且性能持平。此外，阿里云发布七款大模型产品，包括Qwen3-Max；智谱GLM-4.6即将发布；月之暗面Kimi推出Agent模式“OK Computer”灰度测试，强化智能体能力。

原文链接

AI创想团

09-29 22:15:21

API降价

DeepSeek-V3.2-Exp

稀疏注意力机制

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek-V3.2-Exp官宣发布，API价格下调超50%

2025年9月29日，DeepSeek正式发布实验性版本V3.2-Exp，并开源。该版本引入稀疏注意力机制，优化长文本训练与推理效率，同时支持TileLang和CUDA两种GPU算子版本。API价格大幅下调，输入和输出成本降低超50%。中信建投分析师评价其易用性显著提升。官方表示，新模型在基准测试中表现与前代相当。此外，TileLang编程语言由北大团队开发，可大幅提升开发效率。同日，阿里云发布Qwen3-Max等七款大模型产品，智谱GLM-4.6即将上线，月之暗面Kimi推出Agent模式“OK Computer”灰度测试。

原文链接

AGI探路者

09-29 20:15:06

API价格

DeepSeek-V3.2-Exp

稀疏注意力机制

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek-V3.2-Exp 模型正式发布并开源，API 大幅降价

9月29日，DeepSeek正式发布实验性模型DeepSeek-V3.2-Exp，并在Huggingface与魔搭平台开源。该版本引入DeepSeek Sparse Attention（DSA）稀疏注意力机制，优化长文本训练和推理效率，同时保持模型输出效果几乎不变。官方将V3.2-Exp与前代V3.1-Terminus的训练设置严格对齐，表现基本持平。本次更新还大幅降低API调用成本，开发者使用费用减少50%以上。目前，官方App、网页端及小程序均已同步更新至新版本。为支持对比测试，V3.1-Terminus的API接口暂时保留。论文及相关资源已公开。

原文链接

未来编码者

09-29 19:14:08

API降价

DeepSeek-V3.2-Exp

稀疏注意力机制

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek新模型上线！引入DSA新稀疏注意力，还又狙了CUDA一枪

2025年9月29日，DeepSeek发布最新模型DeepSeek-V3.2-Exp，引入全新稀疏注意力机制DSA，显著提升长文本处理效率与推理性能。官方同步开源TileLang和CUDA双版本GPU算子，并推出API 5折优惠活动。新模型基于上周发布的V3.1-Terminus改进，在稳定性及工具调用能力上进一步优化，尤其在128K长上下文推理中成本更低。此外，智谱AI的GLM-4.6模型也在开发中，其官网已将GLM-4.5标记为‘上一代旗舰’。国庆期间将迎来一波AI技术更新热潮，开发者可关注相关资源链接获取更多信息。

原文链接

元界筑梦师

09-29 19:13:01

DeepSeek

DSA稀疏注意力

TileLang

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek 下一代技术提前曝光，梁文锋署名论文获 ACL 2025 最佳论文奖

在2025年ACL颁奖典礼上，DeepSeek梁文锋作为通讯作者与北京大学联合发表的论文获最佳论文奖。该研究提出原生稀疏注意力（NSA）机制，通过算法与硬件协同优化，使长文本处理速度提升11倍，性能超越传统全注意力模型。一作袁境阳透露，技术可扩展上下文至1百万tokens，或用于下一代DeepSeek-V4及R2模型。实验显示，NSA在多项基准测试中表现优异，尤其在复杂推理和代码理解任务中显著领先。此外，大会还评选出其他3篇最佳论文，分别来自北大、斯坦福等团队，涉及模型对齐弹性、公平性差异感知及生成采样机制研究。

原文链接

数据炼金师

08-01 17:03:23

ACL 2025

DeepSeek

原生稀疏注意力

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek NSA论文荣膺ACL桂冠，知乎答主热议一线科研成果

在ACL 2025颁奖礼上，DeepSeek与北京大学联合发表的论文荣获最佳论文奖，其提出的原生稀疏注意力（NSA）机制为自然语言处理效率突破提供了新思路。知乎答主热议这一技术，李明殊以购物比喻解释NSA机制，Nil-9和锤炼小助手从技术角度深入解析其原理。清华大学刘知远团队此前发布的InfLLM项目及微软亚研院、月之暗面的相关研究均推动了稀疏注意力的发展。知乎作为科技讨论平台，已聚集1600万AI学习者和356万创作者，成为开发者交流前沿成果的重要阵地。

原文链接

Oasis

08-01 13:00:21

原生稀疏注意力

知乎

自然语言处理

分享至

打开微信扫一扫

内容投诉

生成图片

R2还没来，但DeepSeek的秘密武器已经“剧透”了

2025年7月31日，DeepSeek与北京大学联合发表的论文《Native Sparse Attention》获ACL最佳论文奖。该研究提出一种新方法NSA（原生稀疏注意力），首次将稀疏注意力引入完整训练流程，性能不降反升，推理速度提升11倍。NSA通过“粗读摘要、精读重点、强记最近”三种策略动态分配注意力，在长文本处理中表现优异，如64k长度序列的信息检索准确率达100%。此技术已在27B模型上完成预训练验证，未来或大幅降低AI使用成本，提升效率。搭载NSA的下一代DeepSeek模型备受期待。

原文链接

电子诗篇

08-01 09:10:49

原生可训练

推理加速

稀疏注意力

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek下一代技术提前曝光

在2025年7月31日的ACL 2025颁奖典礼上，DeepSeek与北京大学联合发表的论文荣获*论文奖。其提出的原生稀疏注意力（NSA）机制通过算法与硬件协同优化，将长文本处理速度提升11倍，且性能超越传统全注意力模型。一作袁境阳透露，该技术可扩展上下文至1百万tokens，可能应用于下一代DeepSeek-V4及DeepSeek-R2模型。研究显示，NSA在多项基准测试中表现优异，尤其在复杂推理和长文本任务中显著领先。此外，会议还评选出其他三篇*论文，分别聚焦语言模型对齐弹性、公平性差异感知及大模型采样机制理论，为AI领域带来新洞见。

原文链接

虚拟微光

07-31 09:02:46

DeepSeek-V4

原生稀疏注意力

长文本处理

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek下一代技术提前曝光，梁文锋署名论文获ACL2025最佳论文奖

2025年7月31日，DeepSeek团队在ACL 2025上荣获最佳论文奖。梁文锋作为通讯作者，与北京大学联合发表的论文提出原生稀疏注意力（NSA）机制，通过算法与硬件协同优化，使长文本处理速度提升11倍，且性能超越传统全注意力模型。论文一作袁境阳透露，该技术可将上下文扩展至1百万tokens，并可能应用于下一代DeepSeek-V4及DeepSeek-R2模型。NSA在多项基准测试中表现优异，尤其在长文本和复杂推理任务上显著领先。此外，本次ACL还评选出其他三篇最佳论文，分别来自北大、斯坦福等团队，研究涉及模型对齐弹性、公平性差异感知及LLM采样机制理论。

原文链接

数据炼金师

07-31 09:00:51

ACL2025

DeepSeek

原生稀疏注意力

分享至

打开微信扫一扫

内容投诉

生成图片

加载更多