1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

美团推出原生多模态新架构:把图像和语音都当成Token来预测

近年来,头部大模型玩家都在探索原生多模态的底层架构。传统多模态模型采用“拼凑式架构”,语言模型为底座,视觉和语音作为外挂,理解与生成割裂,效率低且信息易流失。而美团LongCat团队提出了一种全新解法——将图片、语音统统当成Token来预测。

真正的统一架构

美团LongCat的核心创新是DiNA(Discrete Native Autoregressive)架构,它将文本、图像、语音统一压进同一个离散Token空间,用一套自回归逻辑完成建模。具体过程如下: - 输入侧:通过各自的Tokenizer,将文字、图像、语音转为离散Token。 - 中间层:所有Token汇入一个不区分模态的学习器,完成理解、推理和生成任务。 - 输出侧:处理后的Token通过De-Tokenizer还原为原始模态。

这种设计让所有模态共享同一套参数、注意力机制和损失函数,训练更稳定,部署更轻量。实验表明,该模型的理解损失仅比纯理解模型高0.006,生成损失甚至更低,展现出协同潜力。

如何实现离散化?

离散化曾被认为存在性能天花板,但美团LongCat证明,关键在于离散Token是否具备语义完备性。对于图像,他们设计了两步法: 1. SAE编码器:从图像中提取高信息密度特征,兼顾语义和细节。 2. dNaViT分词器:通过8层残差向量量化(RVQ),逐级压缩图像信息,并支持任意分辨率的编码与解码。

对于语音,团队使用OpenAI的Whisper编码器提取特征,并通过类似方法离散化。最终,图像和语音都被映射为离散ID,由模型自主学习其含义。

实验结果与意义

基于DiNA架构的LongCat-Next在视觉理解、图像生成、音频处理等多个领域表现出色,甚至超越部分专用模型。研究还发现: 1. 离散视觉无天花板:性能瓶颈更多取决于数据规模,而非离散化本身。 2. 理解与生成协同:统一建模让理解和生成能力相辅相成。 3. 文本能力不受损:多模态训练未削弱模型在纯文本任务上的表现。

开源与未来

美团LongCat已开源LongCat-Next及其分词器,为业界提供了工业级可用的解决方案。这一成果不仅验证了离散建模的可行性,也为原生多模态研究开辟了新路径。

论文链接: https://github.com/meituan-longcat/LongCat-Next/blob/main/tech_report.pdf
GitHub: https://github.com/meituan-longcat/LongCat-Next
HuggingFace: https://huggingface.co/meituan-longcat/LongCat-Next

原文链接
本文链接:https://kx.umi6.com/article/34430.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
广州:加强智能算力中心、国家超算中心等设施建设
2026-04-02 15:06:20
我的天!豆包每天烧120万亿Tokens啊!
2026-04-02 21:16:01
瑞银:中国电力和资源板块有望步入多年增长周期
2026-04-02 15:07:31
天津国资等成立脑机接口产业集团公司 注册资本10亿元
2026-04-01 11:46:35
消息称英伟达Rubin Ultra晶圆代工端规划以2-die版本为主
2026-04-01 17:02:38
工信部:引导基础电信企业、算力服务企业等各类主体建设面向中小企业的先进存力中心
2026-04-02 18:13:50
《自然通讯》重磅:分子之心AI技术解锁蛋白质设计新范式
2026-04-02 19:13:34
曙光数创将推出新一代智算中心基础设施整体解决方案
2026-04-03 12:21:51
上海人工智能实验室联合商汤大装置等共建AI全链路验证平台与生态社区
2026-04-01 23:18:25
中电信人工智能科技公司增资至约33.7亿 增幅约12%
2026-04-03 14:24:49
智谱市值涨至4166亿港元 CEO张鹏称公司将兑现Token经济价值
2026-04-01 12:50:12
再融20亿!星海图把具身智能头部门槛抬到了200亿
2026-04-02 15:00:40
黄仁勋谈20亿美元投资Marvell:AI推理转折点已至
2026-04-02 07:41:32
24小时热文
更多
扫一扫体验小程序