北大团队改造DeepSeek注意力，速度快四倍还不丢精度

2026-04-07 00:20:16

AI创意引擎

发布在

快讯

阅读：7360

正文：2026年4月，北大张牧涵团队提出新稀疏注意力机制HISA（分层索引稀疏注意力），突破64K上下文索引瓶颈，在DeepSeek-V3.2和GLM-5模型上实现2-4倍提速且几乎不丢精度。HISA通过块级粗过滤与块内精挑字符两步操作，将复杂度从O(L²)降至O(L²/B + L×m×B)，大幅降低计算成本，同时支持即插即用无需重新训练。实验显示，HISA在64K长度文本下最高提速3.75倍，精度与原方法DSA持平，尤其在长文本理解与关键信息检索任务中表现优异。团队未来计划改进块划分方式并探索联合训练优化筛选精度。

原文链接

本文链接：https://kx.umi6.com/article/34489.html

转载请注明文章出处

DeepSeek