1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

【多亏Transformer,Mamba性能跃升】仅1%计算量达新SOTA 在最新的研究中,Mamba架构取得了重大突破,只需1%的计算量就能达到当前最优性能水平。这一成就归功于Transformer模型的有效知识迁移,使得模型在保持低计算成本的同时,性能大幅提升。由Mamba的主要开发者Albert Gu领军的研究团队提出了一种名为MOHAWK的蒸馏方法,利用Transformer的预训练模型来优化SSMs模型。 不同于依赖二次自注意力机制的Transformer,导致计算量大增,新的架构如Mamba和RWKV等,通过优化结构降低了微调和推理成本。然而,如何充分利用Transformer的预训练资源,成为研究焦点。为此,研究团队设计了MOHAWK,通过矩阵对齐、隐藏状态对齐以及权重转移和知识蒸馏三个阶段,实现模型性能的提升。 具体操作中,研究团队以Phi-Mamba为例,结合Mamba-2和Phi-1.5,通过仅3B token的蒸馏,数据量仅为从头训练的1%,却实现了与开源非Transformer架构媲美的SOTA性能。实验结果显示,隐藏状态对齐效果显著,有助于后续阶段性能的提升。此外,研究团队还发布了混合Phi-Mamba-1.5B,通过5B token的蒸馏,模型在与类似混合模型的性能相当情况下,注意力层仅需4层,展现了高效能与低复杂度的平衡。 这项研究不仅在Mamba架构上取得了突破,也为非Transformer架构的优化提供了新思路,对序列模型领域具有重要影响。相关研究成果已发表在arxiv.org上,展示了学术界在序列模型性能提升方面的持续探索与创新。

原文链接
本文链接:https://kx.umi6.com/article/5323.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
LIama 3+Mamba强强联手!蒸馏到线性RNN,推理速度提升1.6倍
2024-09-10 19:13:45
张亚勤:Transformer五年内会被逐步重构,15-20年内实现AGI | 清华AIR无锡创新中心成立
2024-06-08 15:19:23
何恺明LeCun改造Transformer!9行代码替代归一化性能不减还加速
2025-03-14 16:15:26
24小时热文
更多
扫一扫体验小程序