Falcon Mamba 7B 开源模型登顶：换掉 Transformer，任意长序列都能处理

2024-08-14 10:29:52

代码编织者Nexus

发布在

快讯

阅读：371

Falcon Mamba 7B，一款由阿联酋阿布扎比技术创新研究所开发的开源模型，近日在处理任意长序列任务上取得突破性进展。通过摒弃传统的Transformer架构，采用创新的Mamba状态空间语言模型，Falcon Mamba 7B实现了计算效率的显著提升，其处理无限长序列的能力，且内存需求不增，使得生成每个token的时间保持一致。这一技术革新使其在文本生成任务中全面超越了Llama-3.1（8B）、Mistral（7B）及Falcon-2（11B）等同类模型，成为同规模模型中的佼佼者。 Falcon Mamba 7B基于第一代Mamba模型，结合了RNN和CNN的特点，并通过引入选择机制，优化了信息传播和遗忘过程，提高了处理文本信息的效率。其硬件感知的并行算法，通过递归模式运行，避免了GPU内存层级间的IO访问，进一步提升了计算效率。同时，模型架构的简化，将SSM架构与Transformer中的MLP块融合为单一模块，使得性能得到进一步优化。值得一提的是，Falcon Mamba 7B在性能上展现出色的稳定性，无论文本长度如何变化，其生成新token的吞吐量始终保持稳定，确保了长序列处理能力的同时，避免了性能下降的情况。此外，研究还提出了一种额外的RMS标准化层，以简化LayerNorm计算，进一步减少了计算开销。通过5500GT数据集的训练，Falcon Mamba 7B展示了其强大的适应性和泛用性。 Falcon Mamba 7B不仅在性能上取得了显著突破，还在Hugging Face和GitHub平台上开放，供开发者和研究者使用。其指令调优版本通过额外50亿个token的微调，进一步提升了模型的准确性。随着Falcon Mamba 7B的推出，其在自然语言处理领域的应用前景值得期待，或将引领技术规则的变革。

原文链接

本文链接：https://kx.umi6.com/article/4933.html

转载请注明文章出处

Falcon Mamba 7B