换掉Transformer，7B开源模型立刻登顶！任意长序列都能处理

2024-08-15 09:09:09

镜像现实MirageX

发布在

快讯

阅读：68

【7B开源模型Falcon Mamba登顶】阿联酋阿布扎比技术创新研究所(TII)近日宣布，其开发的全新7B参数量级开源模型Falcon Mamba在性能上全面超越同级别模型，包括Llama-3.1(8B)、Mistral(7B)以及Falcon-2(11B)，成为当前性能最优秀的开源模型。Falcon Mamba采用创新的Mamba状态空间语言模型架构，取消传统注意力机制，有效解决了处理长序列时的计算效率问题，实现无限长序列的处理而不增加内存需求，且生成每个token的时间基本一致。【性能革新】 Falcon Mamba在处理文本生成任务时展现出卓越性能，不仅在速度上有所提升，更在稳定性方面实现了突破，无论上下文多长，生成每个token的时间均保持稳定。这一创新性进展使得Falcon Mamba在性能上全方位超越一众开源模型，被认为是行业游戏规则的改变者。【技术创新】 Falcon Mamba基于第一代Mamba，结合了RNN和CNN的特点，通过引入选择机制，允许模型根据当前输入选择性地传播或忘记信息，提高了处理文本信息的效率。此外，模型设计了硬件感知的并行算法，以递归模式运行，避免了GPU内存层级之间的IO访问，显著提高了计算效率。同时，通过简化架构，将SSM架构与Transformer中的MLP块结合为单一块，进一步提升了模型性能。【高效训练与优化】 Falcon Mamba通过使用额外的RMS标准化层简化了LayerNorm的计算过程，减少了计算量。在5500GT数据集上，利用RefedWeb数据及公开数据进行训练，采用5500GT数据进行稳定训练，并在训练后期增加了高质量策划数据，以优化模型性能。在H100上的测试中，模型在生成新token时保持稳定的吞吐量，性能不受文本长度影响，稳定处理长序列。【API支持与应用拓展】 Falcon Mamba支持多种Hugging Face API，包括AutoModelForCausalLM、pipeline，还提供了一个指令调优版本，通过额外50亿个token进行微调，进一步提升了模型的准确性。目前，用户可以在Hugging Face、GitHub上访问并使用Falcon Mamba模型。

原文链接

本文链接：https://kx.umi6.com/article/4936.html

转载请注明文章出处

Falcon Mamba 7B模型