1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:UniToken:多模态AI的“全能选手”,一次编码搞定图文理解与图像生成!

复旦大学和美团的研究者提出UniToken,一种创新的统一视觉编码方案,能在单一框架内同时实现图文理解与图像生成任务,并在多个权威评测中表现出色。

UniToken通过融合连续和离散视觉表征,解决了以往方法中“任务干扰”和“表示割裂”的问题,为多模态统一建模提供了新范式。研究团队已开源代码与模型,方便社区复现与开发。

传统图文理解或图像生成模型的视觉编码特性差异显著。图文理解模型需提取高层语义,而图像生成模型依赖底层细节。这导致一体化多模态大模型面临视觉编码割裂和任务联合训练干扰两大难题。

UniToken采用统一的双边视觉编码器,结合VQ-GAN的离散编码与SigLIP的连续表征,形成兼容高层语义与底层细节的视觉编码。其训练分三阶段:第一阶段对齐视觉与语言空间;第二阶段联合训练图文理解与图像生成数据;第三阶段强化指令跟随能力。

实验显示,UniToken在图文理解与图像生成任务上均达到或超越现有SOTA水平。未来,通过扩大模型规模、增加训练数据量及拓展任务类型,UniToken有望进一步提升通用多模态大模型的能力。

原文链接
本文链接:https://kx.umi6.com/article/17757.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像
2024-06-27 13:56:56
GPT-4o的P图太火了,GPU在融化,官方终于限流了
2025-03-28 21:07:22
阿里通义千问首个图像生成基础模型 Qwen-Image 开源,支持中文高保真输出
2025-08-05 08:08:59
一周六连发!昆仑万维将多模态AI卷到了新高度
2025-08-17 18:38:51
告别AI“跷跷板”,商汤“换道超车”
2025-01-16 11:52:01
可能是目前效果最好的开源生图模型,混元生图3.0来了
2025-09-30 21:34:24
取代人类员工,AI需要多久?
2024-08-05 10:02:31
谷歌 Nano Banana 2 首批 AI 样本流出:不仅会画画,还懂物理
2025-11-11 11:01:46
OpenAI的吉卜力,撞车了被字节起诉“投毒AI”的前实习生?
2025-04-03 14:24:18
腾讯混元图像 2.0 模型发布:毫秒级响应,一边打字一边出图
2025-05-16 17:56:45
谷歌nano banana官方最强Prompt模板来了!先收藏再说
2025-09-03 16:47:50
OpenAI 将 ChatGPT 新图像生成技术引入 API,每张图约 2 美分起
2025-04-24 08:29:07
英特尔发布 OpenVINO 2025.0:新增图像生成场景与 DeepSeek 蒸馏模型支持
2025-02-15 14:02:57
24小时热文
更多
扫一扫体验小程序