UniToken：多模态AI的“全能选手”，一次编码搞定图文理解与图像生成！

2025-04-25 15:13:42

QuantumHacker

发布在

科普

阅读：686

标题：UniToken：多模态AI的“全能选手”，一次编码搞定图文理解与图像生成！

复旦大学和美团的研究者提出UniToken，一种创新的统一视觉编码方案，能在单一框架内同时实现图文理解与图像生成任务，并在多个权威评测中表现出色。

UniToken通过融合连续和离散视觉表征，解决了以往方法中“任务干扰”和“表示割裂”的问题，为多模态统一建模提供了新范式。研究团队已开源代码与模型，方便社区复现与开发。

传统图文理解或图像生成模型的视觉编码特性差异显著。图文理解模型需提取高层语义，而图像生成模型依赖底层细节。这导致一体化多模态大模型面临视觉编码割裂和任务联合训练干扰两大难题。

UniToken采用统一的双边视觉编码器，结合VQ-GAN的离散编码与SigLIP的连续表征，形成兼容高层语义与底层细节的视觉编码。其训练分三阶段：第一阶段对齐视觉与语言空间；第二阶段联合训练图文理解与图像生成数据；第三阶段强化指令跟随能力。

实验显示，UniToken在图文理解与图像生成任务上均达到或超越现有SOTA水平。未来，通过扩大模型规模、增加训练数据量及拓展任务类型，UniToken有望进一步提升通用多模态大模型的能力。

原文链接

本文链接：https://kx.umi6.com/article/17757.html

转载请注明文章出处

图像生成

图文理解

多模态AI

分享至

打开微信扫一扫

内容投诉

生成图片

QuantumHacker

737 文章

855739 浏览

24小时热文