2月18日,Kimi和DeepSeek发布新进展,分别推出MoBA和NSA,两者都是对注意力机制的改进。MoBA的主要研发者Andrew Lu在知乎分享了研发过程的三次挑战,称为“三入思过崖”。MoBA最初设计时旨在快速训练出支持128K长度的模型。经历了多次调整,最终在2024年初稳定下来,成为一种高效的稀疏注意力机制。MoBA的最新版本已应用于月之暗面的产品Kimi中,并在GitHub上开源。尽管初期在长文任务中表现不佳,但通过调整,MoBA最终成功上线服务用户。
原文链接
本文链接:https://kx.umi6.com/article/13982.html
转载请注明文章出处
相关推荐
.png)
换一换
英伟达推出Lepton云平台 打造全球规模AI工厂
2025-05-19 14:20:53
姚班学霸、OpenAI姚顺雨:大模型下半场是产品的游戏
2025-04-17 17:47:23
GPT-4o抢了Gemini风头
2024-05-23 18:09:57
414 文章
73477 浏览
24小时热文
更多

-
2025-07-19 11:52:20
-
2025-07-19 11:51:22
-
2025-07-19 10:50:54