Kimi的新论文再次与DeepSeek的研究“撞车”,两者均探讨了长文注意力机制。这项名为MoBA的新型注意力机制,能将处理1M长文本的速度提升6.5倍,并已在Kimi平台上验证。
MoBA的核心在于: - 将长文本划分为块,使每个查询token自动关注最相关的KV块。 - 引入参数无关的top-k门控机制,确保模型聚焦于有用信息。 - 支持全注意力和稀疏注意力模式切换。
MoBA将MoE应用于注意力机制,遵循“less structure”原则,允许模型自主决定关注区域。结果表明,处理1M和10M长文本的速度分别提升了6.5倍和16倍,且无需高昂训练成本。
论文作者包括杨植麟,同时,DeepSeek也在相近时间公开了类似的注意力机制NSA。MoBA通过仅关注部分键值来提升效率,采用top-k门控机制挑选相关块,并通过细粒度块分割提高性能。实验显示,MoBA在长上下文处理中表现出色,且与全注意力模型性能相当。
原文链接
本文链接:https://kx.umi6.com/article/13778.html
转载请注明文章出处
相关推荐
换一换
撞车DeepSeek NSA Kimi杨植麟署名的新注意力架构MoBA发布
2025-02-19 15:57:22
月之暗面 MoBA 核心作者自述:一个 “新晋大模型训练师” 的三入思过崖
2025-02-21 14:53:27
中文名确定!Token正式被译名为“词元”:我国日均调用量突破140万亿
2026-03-24 16:01:46
黄仁勋担心中国市场觉醒
2025-05-08 14:31:13
阶跃星辰发布Step-2 mini和Step文学大师模型
2025-01-20 16:28:10
阿里给员工发Token 鼓励使用AI工具工作
2026-03-17 13:34:42
华为杨超斌:近 8 个月,国内 AI 大模型 Token 所带来的流量增长了 33 倍
2025-03-04 20:33:25
解读大模型价格战:着急的大厂
2024-05-27 09:09:59
从Token到词元:全模态时代的基模与交互入口
2026-03-27 12:58:21
“Token”这个词的搜索量最高一天达到7.7万次 比去年日均搜索量高出1850%
2026-03-28 20:15:44
杨植麟和梁文锋,论文撞车了
2025-02-19 11:47:33
时隔19天 DeepSeek重新开放API充值:曾因资源紧张暂停充值
2025-02-25 16:04:03
智源发布原生多模态世界模型 Emu3,宣称实现图像、文本、视频大一统
2024-10-22 00:42:45
699 文章
558491 浏览
24小时热文
更多
-
2026-04-24 20:31:56 -
2026-04-24 20:29:51 -
2026-04-24 19:29:38