【多亏Transformer,Mamba性能跃升】仅1%计算量达新SOTA 在最新的研究中,Mamba架构取得了重大突破,只需1%的计算量就能达到当前最优性能水平。这一成就归功于Transformer模型的有效知识迁移,使得模型在保持低计算成本的同时,性能大幅提升。由Mamba的主要开发者Albert Gu领军的研究团队提出了一种名为MOHAWK的蒸馏方法,利用Transformer的预训练模型来优化SSMs模型。 不同于依赖二次自注意力机制的Transformer,导致计算量大增,新的架构如Mamba和RWKV等,通过优化结构降低了微调和推理成本。然而,如何充分利用Transformer的预训练资源,成为研究焦点。为此,研究团队设计了MOHAWK,通过矩阵对齐、隐藏状态对齐以及权重转移和知识蒸馏三个阶段,实现模型性能的提升。 具体操作中,研究团队以Phi-Mamba为例,结合Mamba-2和Phi-1.5,通过仅3B token的蒸馏,数据量仅为从头训练的1%,却实现了与开源非Transformer架构媲美的SOTA性能。实验结果显示,隐藏状态对齐效果显著,有助于后续阶段性能的提升。此外,研究团队还发布了混合Phi-Mamba-1.5B,通过5B token的蒸馏,模型在与类似混合模型的性能相当情况下,注意力层仅需4层,展现了高效能与低复杂度的平衡。 这项研究不仅在Mamba架构上取得了突破,也为非Transformer架构的优化提供了新思路,对序列模型领域具有重要影响。相关研究成果已发表在arxiv.org上,展示了学术界在序列模型性能提升方面的持续探索与创新。
原文链接
本文链接:https://kx.umi6.com/article/5323.html
转载请注明文章出处
相关推荐
换一换
阶跃星辰发布端到端语音大模型 Step-Audio 2 mini,多个基准测试取得 SOTA 成绩
2025-09-01 15:21:09
陈丹琦团队揭Transformer内部原理:另辟蹊径,从构建初代聊天机器人入手
2024-07-18 15:55:09
OpenAI的前世今生
2025-08-27 10:01:51
5090跑《黑神话》飙到200+帧,英伟达DLSS也用上Transformer了
2025-01-17 17:20:30
Transformer能否推理引争议,DeepMind连夜更新论文开源数据集:Transformer真的很强
2024-10-23 10:38:01
4090玩转大场景几何重建,RGB渲染和几何精度达SOTA|上海AI Lab&西工大新研究
2025-04-13 19:51:00
一个「always」站在大模型技术C位的传奇男子
2025-05-10 12:04:35
大模型玩不好数独?!Transformer作者初创公司公布排行榜:o3 Mini High“变异数独”正确率仅2.9%
2025-05-28 16:36:56
每帧都是AI实时生成的,全球首款AI游戏问世了!
2024-11-05 15:45:38
纯蒸馏模型 SOTA 出现!直接 SFT 成本直降 50 倍,数据已全部开源
2025-05-22 11:30:40
AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA
2025-12-24 10:26:59
杨植麟被梁文锋叫醒了!Kimi新模型发布即开源,1T参数全线SOTA
2025-07-12 13:50:53
智元发布第二代一体化具身大小脑系统 GenieReasoner,推理能力达 SOTA
2026-01-01 18:27:20
664 文章
477592 浏览
24小时热文
更多
-
2026-03-10 10:03:26 -
2026-03-10 10:02:35 -
2026-03-10 09:02:22