Mamba一作预告新架构:Transformer≠最终解法
Mamba一作发表长文,探讨状态空间模型(SSMs)与Transformer的权衡。Mamba是一种现代SSM,性能超越同等规模的Transformer,被视为其有力挑战者。他提出几个核心观点:Attention虽强大但非万能;Transformer只是阶段性最优;“让每个FLOPs有意义”才是架构设计目标;混合SSM与注意力层可提升性能。他还透露,几天后将发布“架构领域的重大进展”,且新架构与Transformer兼容。
SSMs vs Transformer:两种模式的较量
SSMs可看作RNN的现代版,像人类大脑一样,通过压缩和总结信息处理长序列数据,适合非结构化数据且计算成本低。而Transformer更像数据库,依赖自注意力机制精细处理每个Token,但计算成本高且对高质量数据依赖强。此外,作者认为Tokenization违背深度学习“端到端”精神,建议废除,并指出SSMs在未经Tokenization的数据上表现优于Transformer。
混合模型:结合两者优势
研究发现,将SSM层与注意力层按3:1到10:1比例混合,可显著提升性能。这表明Attention并非All You Need,Transformer在建模能力上存在局限性。未来方向可能是结合两者优势,开发直接处理原始数据的新架构,同时追求更高的算力效率。
新架构或将带来惊喜,值得期待!
原文链接
本文链接:https://kx.umi6.com/article/21427.html
转载请注明文章出处
相关推荐
.png)
换一换
投资界24h | 刘强东内部讲话曝光;敦煌网在美爆火;1000亿,杭州投向AI产业
2025-04-16 09:58:14
大模型智障检测+1:Strawberry有几个r纷纷数不清,最新最强Llama3.1也傻了
2024-07-25 18:57:37
突破CUDA包围圈,再出一招
2024-07-19 13:45:27
443 文章
76924 浏览
24小时热文
更多

-
2025-07-18 23:46:25
-
2025-07-18 22:47:06
-
2025-07-18 22:46:21