
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
Mamba一作预告新架构:Transformer≠最终解法
Mamba一作发表长文,探讨状态空间模型(SSMs)与Transformer的权衡。Mamba是一种现代SSM,性能超越同等规模的Transformer,被视为其有力挑战者。他提出几个核心观点:Attention虽强大但非万能;Transf...
原文链接
标题:单GPU高效生成高清长视频,LinGen突破DiT瓶颈 | 普林斯顿&Meta
视频生成模型昂贵且运行缓慢?普林斯顿大学与Meta合作推出的LinGen框架通过引入MATE模块,将计算复杂度从像素数平方降至线性,使单张GPU即可在分钟级别生成高质量视频,效率提升十倍。实验显示,Li...
原文链接
标题:Mamba混合架构让显存消耗减半,轻松处理10万视频token
长视频理解迎来新突破!滑铁卢大学陈文虎团队联合多家机构推出Mamba-Transformer混合模型Vamba。不同于传统压缩视频token的方式,Vamba通过优化架构设计,提升了处理视频token的效率。实验显示,Vamb...
原文链接
Together AI团队成功地将Transformer和Mamba模型结合,推出了Llama 3+Mamba混合模型。通过蒸馏技术,将Transformer的参数集成到Mamba模型中,同时开发了推测解码算法加速推理过程,实现了推理速度最高提升1.6倍的显著效果。这一创新不仅保持了原有模型的高性能,甚至在某些任务上的表现超越了原始模型,尤其是在零样本和少样本的通用自然语言处理任务中。实验结果显示,在多轮聊天对话任务中,混合模型与Llama-3相当或更优,且在零样本任务评测中,混合模型的平均成绩优于同等规模的RNN模型。此外,推测解码算法的应用使得混合模型在单论和多轮任务上的性能得到了显著提升,尤其是在Zephyr和Llama混合模型上,推理速度分别提升了1.8倍和1.6倍以上。这一成果标志着大模型发展方向的一个重要里程碑,展示了混合模型在加速推理过程和提升性能方面的巨大潜力。
原文链接
【多亏Transformer,Mamba性能跃升】仅1%计算量达新SOTA
在最新的研究中,Mamba架构取得了重大突破,只需1%的计算量就能达到当前最优性能水平。这一成就归功于Transformer模型的有效知识迁移,使得模型在保持低计算成本的同时,性能大幅提升。由Mamba的主要开发者Albe...
原文链接
【7B开源模型Falcon Mamba登顶】
阿联酋阿布扎比技术创新研究所(TII)近日宣布,其开发的全新7B参数量级开源模型Falcon Mamba在性能上全面超越同级别模型,包括Llama-3.1(8B)、Mistral(7B)以及Falcon-2(11B),成为当前性能最优秀的开源模型。Fal...
原文链接
Falcon Mamba 7B,一款由阿联酋阿布扎比技术创新研究所开发的开源模型,近日在处理任意长序列任务上取得突破性进展。通过摒弃传统的Transformer架构,采用创新的Mamba状态空间语言模型,Falcon Mamba 7B实现了计算效率的显著提升,其处理无限长序列的能力,且内存需求不增,...
原文链接
法国AI初创公司Mistral AI近日推出两款创新AI模型:Codestral Mamba 7B(专为程序员设计,处理长文本速度快,输入上限是GPT-4的两倍)和Mathstral 7B(数学推理模型,32K上下文窗口,开源并具备微调功能)。这两款新模型表明Mistral AI在大模型竞赛中崭露头角,尤其在代码生成和数学应用上超越竞品。随着Mistral AI在B轮融资中获得6.4亿美元,估值逼近60亿美元,显示出AI工具专业化和开源合作的强劲势头,推动AI领域的发展。
原文链接
欧洲OpenAI与"Transformer挑战者"合作,Mistral AI推出基于Mamba2架构的开源代码生成模型Codestral Mamba(7B),支持无限长度输入。该模型在256k token上下文中超越了多个7B和34B规模的代码生成模型。Mistral AI同时发布了数学模型Mathstral(7B),专注于STEM领域,且表现出在数学问题解决上的优势。Mamba初代论文虽曾被ICLR拒稿,但已被CoLM2024会议接收,显示Mamba架构的革新影响力。
原文链接
加载更多

暂无内容