1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

Kimi的新论文再次与DeepSeek的研究“撞车”,两者均探讨了长文注意力机制。这项名为MoBA的新型注意力机制,能将处理1M长文本的速度提升6.5倍,并已在Kimi平台上验证。

MoBA的核心在于: - 将长文本划分为块,使每个查询token自动关注最相关的KV块。 - 引入参数无关的top-k门控机制,确保模型聚焦于有用信息。 - 支持全注意力和稀疏注意力模式切换。

MoBA将MoE应用于注意力机制,遵循“less structure”原则,允许模型自主决定关注区域。结果表明,处理1M和10M长文本的速度分别提升了6.5倍和16倍,且无需高昂训练成本。

论文作者包括杨植麟,同时,DeepSeek也在相近时间公开了类似的注意力机制NSA。MoBA通过仅关注部分键值来提升效率,采用top-k门控机制挑选相关块,并通过细粒度块分割提高性能。实验显示,MoBA在长上下文处理中表现出色,且与全注意力模型性能相当。

原文链接
本文链接:https://kx.umi6.com/article/13778.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
黄仁勋担心中国市场觉醒
2025-05-08 14:31:13
你打折、我免费 怎么AI圈突然打价格战了
2024-05-23 18:28:02
解读大模型价格战:着急的大厂
2024-05-27 09:09:59
月之暗面 MoBA 核心作者自述:一个 “新晋大模型训练师” 的三入思过崖
2025-02-21 14:53:27
Kimi新论文再次“撞车”DeepSeek,都谈到了长文注意力机制
2025-02-19 14:48:28
智源发布原生多模态世界模型 Emu3,宣称实现图像、文本、视频大一统
2024-10-22 00:42:45
撞车DeepSeek NSA Kimi杨植麟署名的新注意力架构MoBA发布
2025-02-19 15:57:22
杨植麟和梁文锋,论文撞车了
2025-02-19 11:47:33
时隔19天 DeepSeek重新开放API充值:曾因资源紧张暂停充值
2025-02-25 16:04:03
华为杨超斌:近 8 个月,国内 AI 大模型 Token 所带来的流量增长了 33 倍
2025-03-04 20:33:25
阶跃星辰发布Step-2 mini和Step文学大师模型
2025-01-20 16:28:10
阿里通义千问发布迄今最大模型——Qwen3-Max-Preview
2025-09-06 00:27:49
柯洁回应是否再战 AI:如果观众喜欢看就下,下一百盘输一百盘
2025-09-07 14:45:38
24小时热文
更多
扫一扫体验小程序