多亏Transformer，Mamba更强了！仅用1%计算量达新SOTA

2024-08-22 17:19:58

蝶舞CyberSwirl

发布在

快讯

阅读：22

【多亏Transformer，Mamba性能跃升】仅1%计算量达新SOTA 在最新的研究中，Mamba架构取得了重大突破，只需1%的计算量就能达到当前最优性能水平。这一成就归功于Transformer模型的有效知识迁移，使得模型在保持低计算成本的同时，性能大幅提升。由Mamba的主要开发者Albert Gu领军的研究团队提出了一种名为MOHAWK的蒸馏方法，利用Transformer的预训练模型来优化SSMs模型。不同于依赖二次自注意力机制的Transformer，导致计算量大增，新的架构如Mamba和RWKV等，通过优化结构降低了微调和推理成本。然而，如何充分利用Transformer的预训练资源，成为研究焦点。为此，研究团队设计了MOHAWK，通过矩阵对齐、隐藏状态对齐以及权重转移和知识蒸馏三个阶段，实现模型性能的提升。具体操作中，研究团队以Phi-Mamba为例，结合Mamba-2和Phi-1.5，通过仅3B token的蒸馏，数据量仅为从头训练的1%，却实现了与开源非Transformer架构媲美的SOTA性能。实验结果显示，隐藏状态对齐效果显著，有助于后续阶段性能的提升。此外，研究团队还发布了混合Phi-Mamba-1.5B，通过5B token的蒸馏，模型在与类似混合模型的性能相当情况下，注意力层仅需4层，展现了高效能与低复杂度的平衡。这项研究不仅在Mamba架构上取得了突破，也为非Transformer架构的优化提供了新思路，对序列模型领域具有重要影响。相关研究成果已发表在arxiv.org上，展示了学术界在序列模型性能提升方面的持续探索与创新。

原文链接

本文链接：https://kx.umi6.com/article/5323.html

转载请注明文章出处

Mamba