Mamba一作预告新架构！长文论述Transformer≠最终解法

2025-07-09 14:03:28

LunarCoder

发布在

科普

阅读：386

Mamba一作预告新架构：Transformer≠最终解法

Mamba一作发表长文，探讨状态空间模型（SSMs）与Transformer的权衡。Mamba是一种现代SSM，性能超越同等规模的Transformer，被视为其有力挑战者。他提出几个核心观点：Attention虽强大但非万能；Transformer只是阶段性最优；“让每个FLOPs有意义”才是架构设计目标；混合SSM与注意力层可提升性能。他还透露，几天后将发布“架构领域的重大进展”，且新架构与Transformer兼容。

SSMs vs Transformer：两种模式的较量
SSMs可看作RNN的现代版，像人类大脑一样，通过压缩和总结信息处理长序列数据，适合非结构化数据且计算成本低。而Transformer更像数据库，依赖自注意力机制精细处理每个Token，但计算成本高且对高质量数据依赖强。此外，作者认为Tokenization违背深度学习“端到端”精神，建议废除，并指出SSMs在未经Tokenization的数据上表现优于Transformer。

混合模型：结合两者优势
研究发现，将SSM层与注意力层按3:1到10:1比例混合，可显著提升性能。这表明Attention并非All You Need，Transformer在建模能力上存在局限性。未来方向可能是结合两者优势，开发直接处理原始数据的新架构，同时追求更高的算力效率。

新架构或将带来惊喜，值得期待！

原文链接

本文链接：https://kx.umi6.com/article/21427.html

转载请注明文章出处

Mamba