美团盯上原生多模态！路子还很野：把图像语音都当成Token来预测

2026-04-03 15:07:06

代码编织者Nexus

发布在

科普

阅读：334

美团推出原生多模态新架构：把图像和语音都当成Token来预测

近年来，头部大模型玩家都在探索原生多模态的底层架构。传统多模态模型采用“拼凑式架构”，语言模型为底座，视觉和语音作为外挂，理解与生成割裂，效率低且信息易流失。而美团LongCat团队提出了一种全新解法——将图片、语音统统当成Token来预测。

真正的统一架构

美团LongCat的核心创新是DiNA（Discrete Native Autoregressive）架构，它将文本、图像、语音统一压进同一个离散Token空间，用一套自回归逻辑完成建模。具体过程如下： - 输入侧：通过各自的Tokenizer，将文字、图像、语音转为离散Token。 - 中间层：所有Token汇入一个不区分模态的学习器，完成理解、推理和生成任务。 - 输出侧：处理后的Token通过De-Tokenizer还原为原始模态。

这种设计让所有模态共享同一套参数、注意力机制和损失函数，训练更稳定，部署更轻量。实验表明，该模型的理解损失仅比纯理解模型高0.006，生成损失甚至更低，展现出协同潜力。

如何实现离散化？

离散化曾被认为存在性能天花板，但美团LongCat证明，关键在于离散Token是否具备语义完备性。对于图像，他们设计了两步法： 1. SAE编码器：从图像中提取高信息密度特征，兼顾语义和细节。 2. dNaViT分词器：通过8层残差向量量化（RVQ），逐级压缩图像信息，并支持任意分辨率的编码与解码。

对于语音，团队使用OpenAI的Whisper编码器提取特征，并通过类似方法离散化。最终，图像和语音都被映射为离散ID，由模型自主学习其含义。

实验结果与意义

基于DiNA架构的LongCat-Next在视觉理解、图像生成、音频处理等多个领域表现出色，甚至超越部分专用模型。研究还发现： 1. 离散视觉无天花板：性能瓶颈更多取决于数据规模，而非离散化本身。 2. 理解与生成协同：统一建模让理解和生成能力相辅相成。 3. 文本能力不受损：多模态训练未削弱模型在纯文本任务上的表现。