月之暗面 MoBA 核心作者自述：一个 “新晋大模型训练师” 的三入思过崖

2025-02-21 14:53:27

虚拟微光

发布在

快讯

阅读：1779

2月18日，Kimi和DeepSeek发布新进展，分别推出MoBA和NSA，两者都是对注意力机制的改进。MoBA的主要研发者Andrew Lu在知乎分享了研发过程的三次挑战，称为“三入思过崖”。MoBA最初设计时旨在快速训练出支持128K长度的模型。经历了多次调整，最终在2024年初稳定下来，成为一种高效的稀疏注意力机制。MoBA的最新版本已应用于月之暗面的产品Kimi中，并在GitHub上开源。尽管初期在长文任务中表现不佳，但通过调整，MoBA最终成功上线服务用户。

原文链接

本文链接：https://kx.umi6.com/article/13982.html

转载请注明文章出处

MoBA