稀疏注意力机制

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

DeepSeek新模型上线

2025年9月30日，DeepSeek发布最新模型DeepSeek-V3.2-Exp，引入全新稀疏注意力机制DeepSeek Sparse Attention（DSA），显著提升长文本处理效率与推理性能，同时开源TileLang和CUDA双版本GPU算子，便于社区研究与迭代。官方App、网页端、小程序均已同步更新，并推出API 5折起优惠活动。此外，DeepSeek-V3.2-Exp在多项公开测评中表现与前代V3.1-Terminus持平，但在处理128K长上下文时成本更低。同日，智谱GLM-4.6也被曝光正在开发中，其上一代旗舰GLM-4.5已标注为旧版。国庆前夕，AI领域竞争愈发激烈。

原文链接

AI幻想空间站

09-30 11:25:43

DeepSeek

TileLang

稀疏注意力机制

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek新发布

2025年9月29日，DeepSeek正式发布并开源实验性版本V3.2-Exp，引入稀疏注意力机制优化长文本处理效率。中信建投分析师评价其易用性大幅提升。此次更新同步上线官方App、网页端和小程序，API价格大幅降低，开发者调用成本减少超50%。同时，DeepSeek开源TileLang与CUDA双版本GPU算子，建议社区使用TileLang版本以加速研究迭代。TileLang由北大团队开发，显著减少代码量且性能持平。此外，阿里云发布七款大模型产品，包括Qwen3-Max；智谱GLM-4.6即将发布；月之暗面Kimi推出Agent模式“OK Computer”灰度测试，强化智能体能力。

原文链接

AI创想团

09-29 22:15:21

API降价

DeepSeek-V3.2-Exp

稀疏注意力机制

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek-V3.2-Exp官宣发布，API价格下调超50%

2025年9月29日，DeepSeek正式发布实验性版本V3.2-Exp，并开源。该版本引入稀疏注意力机制，优化长文本训练与推理效率，同时支持TileLang和CUDA两种GPU算子版本。API价格大幅下调，输入和输出成本降低超50%。中信建投分析师评价其易用性显著提升。官方表示，新模型在基准测试中表现与前代相当。此外，TileLang编程语言由北大团队开发，可大幅提升开发效率。同日，阿里云发布Qwen3-Max等七款大模型产品，智谱GLM-4.6即将上线，月之暗面Kimi推出Agent模式“OK Computer”灰度测试。

原文链接

AGI探路者

09-29 20:15:06

API价格

DeepSeek-V3.2-Exp

稀疏注意力机制

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek-V3.2-Exp 模型正式发布并开源，API 大幅降价

9月29日，DeepSeek正式发布实验性模型DeepSeek-V3.2-Exp，并在Huggingface与魔搭平台开源。该版本引入DeepSeek Sparse Attention（DSA）稀疏注意力机制，优化长文本训练和推理效率，同时保持模型输出效果几乎不变。官方将V3.2-Exp与前代V3.1-Terminus的训练设置严格对齐，表现基本持平。本次更新还大幅降低API调用成本，开发者使用费用减少50%以上。目前，官方App、网页端及小程序均已同步更新至新版本。为支持对比测试，V3.1-Terminus的API接口暂时保留。论文及相关资源已公开。

原文链接

未来编码者

09-29 19:14:08

API降价

DeepSeek-V3.2-Exp

稀疏注意力机制

分享至

打开微信扫一扫

内容投诉

生成图片

月之暗面 MoBA 核心作者自述：一个 “新晋大模型训练师” 的三入思过崖

2月18日，Kimi和DeepSeek发布新进展，分别推出MoBA和NSA，两者都是对注意力机制的改进。MoBA的主要研发者Andrew Lu在知乎分享了研发过程的三次挑战，称为“三入思过崖”。MoBA最初设计时旨在快速训练出支持128K长度的模型。经历了多次调整，最终在2024年初稳定下来，成为一种高效的稀疏注意力机制。MoBA的最新版本已应用于月之暗面的产品Kimi中，并在GitHub上开源。尽管初期在长文任务中表现不佳，但通过调整，MoBA最终成功上线服务用户。

原文链接

虚拟微光

02-21 14:53:27

MoBA

注意力机制

稀疏注意力机制

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek新论文再次引发热议，它说了什么？

DeepSeek的最新论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》引起了广泛关注。该论文介绍了一种名为NSA的新型稀疏注意力机制，适用于超快长上下文训练和推理，且具有硬件对齐...

原文链接

虚拟微光

02-19 16:53:40

DeepSeek

GPU

稀疏注意力机制

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek 再放降本大招：NSA 官宣发布，加速推理降低成本，并且不牺牲性能

2月18日，DeepSeek宣布推出NSA（Native Sparse Attention），一种硬件对 alignments 且原生可训练的稀疏注意力机制，旨在加速推理并降低成本，同时保持性能。NSA的核心组件包括动态分层稀疏策略、粗粒度token压缩及细粒度token选择。DeepSeek表示，该机制在通用基准、长上下文任务和基于指令的推理中表现出色，不逊于全注意力模型。更多信息参见：

原文链接

智慧轨迹

02-18 17:24:09

NSA

稀疏注意力机制

降低成本

分享至

打开微信扫一扫

内容投诉

生成图片

Qwen开源首个长文本新模型，百万Tokens处理性能超GPT-4o-mini

Qwen开源首个长文本新模型，百万Tokens处理性能超GPT-4o-mini 谈到大模型的“国货之光”，阿里云Qwen首次将开源模型的上下文扩展至1M长度。新模型包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M，已实现稳定超越GPT-4o-mini，...

原文链接