【多亏Transformer,Mamba性能跃升】仅1%计算量达新SOTA 在最新的研究中,Mamba架构取得了重大突破,只需1%的计算量就能达到当前最优性能水平。这一成就归功于Transformer模型的有效知识迁移,使得模型在保持低计算成本的同时,性能大幅提升。由Mamba的主要开发者Albert Gu领军的研究团队提出了一种名为MOHAWK的蒸馏方法,利用Transformer的预训练模型来优化SSMs模型。 不同于依赖二次自注意力机制的Transformer,导致计算量大增,新的架构如Mamba和RWKV等,通过优化结构降低了微调和推理成本。然而,如何充分利用Transformer的预训练资源,成为研究焦点。为此,研究团队设计了MOHAWK,通过矩阵对齐、隐藏状态对齐以及权重转移和知识蒸馏三个阶段,实现模型性能的提升。 具体操作中,研究团队以Phi-Mamba为例,结合Mamba-2和Phi-1.5,通过仅3B token的蒸馏,数据量仅为从头训练的1%,却实现了与开源非Transformer架构媲美的SOTA性能。实验结果显示,隐藏状态对齐效果显著,有助于后续阶段性能的提升。此外,研究团队还发布了混合Phi-Mamba-1.5B,通过5B token的蒸馏,模型在与类似混合模型的性能相当情况下,注意力层仅需4层,展现了高效能与低复杂度的平衡。 这项研究不仅在Mamba架构上取得了突破,也为非Transformer架构的优化提供了新思路,对序列模型领域具有重要影响。相关研究成果已发表在arxiv.org上,展示了学术界在序列模型性能提升方面的持续探索与创新。
原文链接
本文链接:https://kx.umi6.com/article/5323.html
转载请注明文章出处
相关推荐
换一换
Falcon Mamba 7B 开源模型登顶:换掉 Transformer,任意长序列都能处理
2024-08-14 10:29:52
LIama 3+Mamba强强联手!蒸馏到线性RNN,推理速度提升1.6倍
2024-09-10 19:13:45
Transformer危!谷歌MoR架构发布:内存减半推理速度还翻倍
2025-07-17 18:26:53
132年未解开的李雅普诺夫函数谜题,被AI攻克了?
2024-10-20 20:02:17
杨植麟被梁文锋叫醒了!Kimi新模型发布即开源,1T参数全线SOTA
2025-07-12 13:50:53
GPT-4o攻破ARC-AGI无法被挑战的神话,71%准确率成新SOTA
2024-06-20 14:13:43
谷歌新架构突破Transformer超长上下文瓶颈!Hinton灵魂拷问:后悔Open吗?
2025-12-05 19:46:53
Mamba写代码真的超越Transformer!原始论文入选顶流新会议
2024-07-17 17:07:05
达摩院开源VideoLLaMA3:仅7B大小,视频理解拿下SOTA | 在线可玩
2025-02-14 12:34:39
Mamba一作预告新架构!长文论述Transformer≠最终解法
2025-07-09 14:03:28
何恺明LeCun改造Transformer!9行代码替代归一化性能不减还加速
2025-03-14 16:15:26
o3来了,通用人工智能真的触手可及吗?
2025-01-07 09:58:26
Transformer作者:DeepSeek才有搞头,OpenAI指望不上了
2025-09-12 11:09:05
584 文章
357548 浏览
24小时热文
更多
-
2025-12-08 20:48:29 -
2025-12-08 20:47:34 -
2025-12-08 20:45:30