1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

【7B开源模型Falcon Mamba登顶】 阿联酋阿布扎比技术创新研究所(TII)近日宣布,其开发的全新7B参数量级开源模型Falcon Mamba在性能上全面超越同级别模型,包括Llama-3.1(8B)、Mistral(7B)以及Falcon-2(11B),成为当前性能最优秀的开源模型。Falcon Mamba采用创新的Mamba状态空间语言模型架构,取消传统注意力机制,有效解决了处理长序列时的计算效率问题,实现无限长序列的处理而不增加内存需求,且生成每个token的时间基本一致。 【性能革新】 Falcon Mamba在处理文本生成任务时展现出卓越性能,不仅在速度上有所提升,更在稳定性方面实现了突破,无论上下文多长,生成每个token的时间均保持稳定。这一创新性进展使得Falcon Mamba在性能上全方位超越一众开源模型,被认为是行业游戏规则的改变者。 【技术创新】 Falcon Mamba基于第一代Mamba,结合了RNN和CNN的特点,通过引入选择机制,允许模型根据当前输入选择性地传播或忘记信息,提高了处理文本信息的效率。此外,模型设计了硬件感知的并行算法,以递归模式运行,避免了GPU内存层级之间的IO访问,显著提高了计算效率。同时,通过简化架构,将SSM架构与Transformer中的MLP块结合为单一块,进一步提升了模型性能。 【高效训练与优化】 Falcon Mamba通过使用额外的RMS标准化层简化了LayerNorm的计算过程,减少了计算量。在5500GT数据集上,利用RefedWeb数据及公开数据进行训练,采用5500GT数据进行稳定训练,并在训练后期增加了高质量策划数据,以优化模型性能。在H100上的测试中,模型在生成新token时保持稳定的吞吐量,性能不受文本长度影响,稳定处理长序列。 【API支持与应用拓展】 Falcon Mamba支持多种Hugging Face API,包括AutoModelForCausalLM、pipeline,还提供了一个指令调优版本,通过额外50亿个token进行微调,进一步提升了模型的准确性。目前,用户可以在Hugging Face、GitHub上访问并使用Falcon Mamba模型。

原文链接
本文链接:https://kx.umi6.com/article/4936.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
史上最快AI芯片Sohu获1.2亿美元融资;Groq进行估值25亿美元融资;Mac版ChatGPT开放下载丨AI情报局
2024-06-27 17:49:26
大模型的效率腾飞,彩云科技做对了什么?
2024-11-18 11:20:45
Sora遭遇强敌,造梦机器爆红:实测效果让人意外
2024-06-14 08:42:36
24小时热文
更多
扫一扫体验小程序