1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:UniToken:多模态AI的“全能选手”,一次编码搞定图文理解与图像生成!

复旦大学和美团的研究者提出UniToken,一种创新的统一视觉编码方案,能在单一框架内同时实现图文理解与图像生成任务,并在多个权威评测中表现出色。

UniToken通过融合连续和离散视觉表征,解决了以往方法中“任务干扰”和“表示割裂”的问题,为多模态统一建模提供了新范式。研究团队已开源代码与模型,方便社区复现与开发。

传统图文理解或图像生成模型的视觉编码特性差异显著。图文理解模型需提取高层语义,而图像生成模型依赖底层细节。这导致一体化多模态大模型面临视觉编码割裂和任务联合训练干扰两大难题。

UniToken采用统一的双边视觉编码器,结合VQ-GAN的离散编码与SigLIP的连续表征,形成兼容高层语义与底层细节的视觉编码。其训练分三阶段:第一阶段对齐视觉与语言空间;第二阶段联合训练图文理解与图像生成数据;第三阶段强化指令跟随能力。

实验显示,UniToken在图文理解与图像生成任务上均达到或超越现有SOTA水平。未来,通过扩大模型规模、增加训练数据量及拓展任务类型,UniToken有望进一步提升通用多模态大模型的能力。

原文链接
本文链接:https://kx.umi6.com/article/17757.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Llama也能做图像生成!港大字节推出开源自回归文生图模型,在线体验已开放
2024-07-03 16:53:44
OpenAI发布生图神器狙击Google,一句话精细P图
2025-03-26 08:41:03
三星多模态 AI 模型 Gauss 2 登场,赋能 Galaxy 智能生态
2024-11-21 13:33:21
24小时热文
更多
扫一扫体验小程序