正文:2026年4月,北大张牧涵团队提出新稀疏注意力机制HISA(分层索引稀疏注意力),突破64K上下文索引瓶颈,在DeepSeek-V3.2和GLM-5模型上实现2-4倍提速且几乎不丢精度。HISA通过块级粗过滤与块内精挑字符两步操作,将复杂度从O(L²)降至O(L²/B + L×m×B),大幅降低计算成本,同时支持即插即用无需重新训练。实验显示,HISA在64K长度文本下最高提速3.75倍,精度与原方法DSA持平,尤其在长文本理解与关键信息检索任务中表现优异。团队未来计划改进块划分方式并探索联合训练优化筛选精度。
原文链接
本文链接:https://kx.umi6.com/article/34489.html
转载请注明文章出处
相关推荐
换一换
在史上最大规模WAIC中寻找DeepSeek
2025-07-28 09:10:59
智能车轮碾过,在2025留下十道车辙
2025-12-30 15:26:18
DeepSeek一句话让国产芯片集体暴涨!背后的UE8M0 FP8到底是个啥
2025-08-22 14:48:58
大厂抢郭达雅进行时!DeepSeek核心成员还是个“综艺巨佬”
2026-03-22 15:52:37
奥尔特曼:DeepSeek 团队很有才华,但他们没找到比 OpenAI 更高效的方法
2025-07-21 21:22:47
MAU被豆包反超,Deepseek挤了点牙膏
2025-10-21 15:28:27
DeepSeek成了硅谷最大的“不能说的秘密”
2025-09-23 17:20:46
被AI「摩擦」的十天:一个普通人的上手记
2025-08-16 18:28:03
DeepSeek又一论文上新
2026-02-27 15:54:06
GLM-5架构曝光,智谱两日涨近60%:采用DeepSeek同款稀疏注意力
2026-02-10 16:24:51
中国大模型首登Nature封面!DeepSeek首次披露:R1训练只花200万
2025-09-18 13:51:50
不是接入DeepSeek,就叫AI制药
2026-01-17 16:35:32
梁文锋代表DeepSeek,他代表梁文锋
2025-11-16 12:31:32
733 文章
575017 浏览
24小时热文
更多
-
2026-04-21 20:21:17 -
2026-04-21 19:22:52 -
2026-04-21 19:21:47