稀疏注意力 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

北大团队改造DeepSeek注意力，速度快四倍还不丢精度

正文：2026年4月，北大张牧涵团队提出新稀疏注意力机制HISA（分层索引稀疏注意力），突破64K上下文索引瓶颈，在DeepSeek-V3.2和GLM-5模型上实现2-4倍提速且几乎不丢精度。HISA通过块级粗过滤与块内精挑字符两步操作，将复杂度从O(L²)降至O(L²/B + L×m×B)，大幅降低计算成本，同时支持即插即用无需重新训练。实验显示，HISA在64K长度文本下最高提速3.75倍，精度与原方法DSA持平，尤其在长文本理解与关键信息检索任务中表现优异。团队未来计划改进块划分方式并探索联合训练优化筛选精度。

原文链接

AI创意引擎

04-07 00:20:16

分享至

打开微信扫一扫

内容投诉

生成图片

GLM-5架构曝光，智谱两日涨近60%：采用DeepSeek同款稀疏注意力

2026年2月，智谱AI的下一代旗舰大模型GLM-5架构细节被开源社区曝光，采用DeepSeek-V3/V3.2架构，包括稀疏注意力机制（DSA）和多Token预测（MTP），总参数量745B，是上一代GLM-4.7的两倍。GLM-5支持202K上下文窗口，复用DeepSeek架构使其可直接受益于现有推理框架优化。与此同时，OpenRouter平台上的匿名模型“Pony Alpha”因强劲编程与推理能力引发热议，91%用户认为其为GLM-5测试版。受此影响，智谱AI港股两日暴涨近60%。GLM-5预计春节前后发布，将与DeepSeek新模型、Qwen 3.5等同期上线，竞争激烈。

原文链接

像素宇宙

02-10 16:24:51

分享至

打开微信扫一扫

内容投诉

生成图片

小米给KV Cache减负80%！MiMo团队推出混合稀疏注意力架构

小米MiMo团队推出了一种名为HySparse的混合稀疏注意力架构，显著优化了AI模型的性能。HySparse通过仅保留少量全注意力（Full Attention）层进行“token选择+KV Cache”，其余稀疏注意力（Sparse Attention）层复用这些信息，从而高效处理长上下文建模。...

原文链接

智能视野

02-07 19:19:57

分享至

打开微信扫一扫

内容投诉

生成图片

清华刘知远团队论文：最小化结构改动，短文本到长文本丝滑升级 | ICLR 2026

标题：清华刘知远团队论文：最小化结构改动，短文本到长文本丝滑升级 | ICLR 2026 正文：大语言模型的“上下文长度”已成为制约其能力的关键瓶颈。长文档理解、跨轮对话记忆等任务对序列长度的需求远超传统4k或8k，而Transformer架构的全注意力机制在序列增长时带来平方级计算与显存开销...

原文链接

超频思维站

02-06 20:12:11

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek的一次小更新：暴打OpenAI 追上Gemini

12月1日，DeepSeek发布两款新模型——DeepSeek V3.2和DeepSeek-V3.2-Speciale。前者性能与GPT-5相当，后者更在多项基准测试中追平闭源模型天花板Gemini，并在IMO 2025、CMO 2025等竞赛中斩获金牌。此次更新通过稀疏注意力（DSA）优化长文本处理能力，显著降低计算成本，同时强化后训练阶段投入超10%总算力提升模型表现。此外，DeepSeek优化了工具调用逻辑，改进Agent能力，并推出支持深度思考的特殊版本Speciale。尽管其Token消耗量较高，但价格仅为Gemini的1/20，性价比突出。DeepSeek持续以算法创新缩小开源与闭源模型差距，展现技术巧思。

原文链接

AI幻想空间站

12-03 00:44:54

分享至

打开微信扫一扫

内容投诉

生成图片

R2还没来，但DeepSeek的秘密武器已经“剧透”了

2025年7月31日，DeepSeek与北京大学联合发表的论文《Native Sparse Attention》获ACL最佳论文奖。该研究提出一种新方法NSA（原生稀疏注意力），首次将稀疏注意力引入完整训练流程，性能不降反升，推理速度提升11倍。NSA通过“粗读摘要、精读重点、强记最近”三种策略动态分配注意力，在长文本处理中表现优异，如64k长度序列的信息检索准确率达100%。此技术已在27B模型上完成预训练验证，未来或大幅降低AI使用成本，提升效率。搭载NSA的下一代DeepSeek模型备受期待。

原文链接