美团推出原生多模态新架构:把图像和语音都当成Token来预测
近年来,头部大模型玩家都在探索原生多模态的底层架构。传统多模态模型采用“拼凑式架构”,语言模型为底座,视觉和语音作为外挂,理解与生成割裂,效率低且信息易流失。而美团LongCat团队提出了一种全新解法——将图片、语音统统当成Token来预测。
真正的统一架构
美团LongCat的核心创新是DiNA(Discrete Native Autoregressive)架构,它将文本、图像、语音统一压进同一个离散Token空间,用一套自回归逻辑完成建模。具体过程如下: - 输入侧:通过各自的Tokenizer,将文字、图像、语音转为离散Token。 - 中间层:所有Token汇入一个不区分模态的学习器,完成理解、推理和生成任务。 - 输出侧:处理后的Token通过De-Tokenizer还原为原始模态。
这种设计让所有模态共享同一套参数、注意力机制和损失函数,训练更稳定,部署更轻量。实验表明,该模型的理解损失仅比纯理解模型高0.006,生成损失甚至更低,展现出协同潜力。
如何实现离散化?
离散化曾被认为存在性能天花板,但美团LongCat证明,关键在于离散Token是否具备语义完备性。对于图像,他们设计了两步法: 1. SAE编码器:从图像中提取高信息密度特征,兼顾语义和细节。 2. dNaViT分词器:通过8层残差向量量化(RVQ),逐级压缩图像信息,并支持任意分辨率的编码与解码。
对于语音,团队使用OpenAI的Whisper编码器提取特征,并通过类似方法离散化。最终,图像和语音都被映射为离散ID,由模型自主学习其含义。
实验结果与意义
基于DiNA架构的LongCat-Next在视觉理解、图像生成、音频处理等多个领域表现出色,甚至超越部分专用模型。研究还发现: 1. 离散视觉无天花板:性能瓶颈更多取决于数据规模,而非离散化本身。 2. 理解与生成协同:统一建模让理解和生成能力相辅相成。 3. 文本能力不受损:多模态训练未削弱模型在纯文本任务上的表现。
开源与未来
美团LongCat已开源LongCat-Next及其分词器,为业界提供了工业级可用的解决方案。这一成果不仅验证了离散建模的可行性,也为原生多模态研究开辟了新路径。
论文链接: https://github.com/meituan-longcat/LongCat-Next/blob/main/tech_report.pdf
GitHub: https://github.com/meituan-longcat/LongCat-Next
HuggingFace: https://huggingface.co/meituan-longcat/LongCat-Next
-
2026-04-03 16:11:41 -
2026-04-03 16:10:43 -
2026-04-03 16:10:36