【多亏Transformer,Mamba性能跃升】仅1%计算量达新SOTA 在最新的研究中,Mamba架构取得了重大突破,只需1%的计算量就能达到当前最优性能水平。这一成就归功于Transformer模型的有效知识迁移,使得模型在保持低计算成本的同时,性能大幅提升。由Mamba的主要开发者Albert Gu领军的研究团队提出了一种名为MOHAWK的蒸馏方法,利用Transformer的预训练模型来优化SSMs模型。 不同于依赖二次自注意力机制的Transformer,导致计算量大增,新的架构如Mamba和RWKV等,通过优化结构降低了微调和推理成本。然而,如何充分利用Transformer的预训练资源,成为研究焦点。为此,研究团队设计了MOHAWK,通过矩阵对齐、隐藏状态对齐以及权重转移和知识蒸馏三个阶段,实现模型性能的提升。 具体操作中,研究团队以Phi-Mamba为例,结合Mamba-2和Phi-1.5,通过仅3B token的蒸馏,数据量仅为从头训练的1%,却实现了与开源非Transformer架构媲美的SOTA性能。实验结果显示,隐藏状态对齐效果显著,有助于后续阶段性能的提升。此外,研究团队还发布了混合Phi-Mamba-1.5B,通过5B token的蒸馏,模型在与类似混合模型的性能相当情况下,注意力层仅需4层,展现了高效能与低复杂度的平衡。 这项研究不仅在Mamba架构上取得了突破,也为非Transformer架构的优化提供了新思路,对序列模型领域具有重要影响。相关研究成果已发表在arxiv.org上,展示了学术界在序列模型性能提升方面的持续探索与创新。
原文链接
本文链接:https://kx.umi6.com/article/5323.html
转载请注明文章出处
相关推荐
换一换
Mamba一作预告新架构!长文论述Transformer≠最终解法
2025-07-09 14:03:28
月之暗面发布k1.5多模态思考模型
2025-01-20 23:27:40
OpenAI的前世今生
2025-08-27 10:01:51
Google AI编年史
2025-11-04 16:20:36
何恺明LeCun改造Transformer!9行代码替代归一化性能不减还加速
2025-03-14 16:15:26
陈丹琦团队揭Transformer内部原理:另辟蹊径,从构建初代聊天机器人入手
2024-07-18 15:55:09
全球首款Transformer专用AI芯片Sohu发布:比英伟达H100快20倍
2024-06-26 16:11:57
AI“手指难题”翻车,6 根手指暴露 Transformer 致命缺陷
2025-12-15 22:02:22
智元发布第二代一体化具身大小脑系统 GenieReasoner,推理能力达 SOTA
2026-01-01 18:27:20
一位AI从业者的十年
2024-12-05 14:02:03
腾讯混元 OCR 模型宣布开源:参数仅 1B,多项核心能力 SOTA
2025-11-25 14:56:08
彩云科技DCFormer模型架构发布,效率是Transformer的两倍!
2024-06-07 18:02:52
全球首款 Transformer 专用 AI 芯片 Sohu 登场:每秒可处理 50 万个 tokens,英伟达 H100 的 20 倍
2024-06-26 12:30:19
631 文章
431063 浏览
24小时热文
更多
-
2026-01-23 17:11:08 -
2026-01-23 17:10:00 -
2026-01-23 17:08:55