1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:UniToken:多模态AI的“全能选手”,一次编码搞定图文理解与图像生成!

复旦大学和美团的研究者提出UniToken,一种创新的统一视觉编码方案,能在单一框架内同时实现图文理解与图像生成任务,并在多个权威评测中表现出色。

UniToken通过融合连续和离散视觉表征,解决了以往方法中“任务干扰”和“表示割裂”的问题,为多模态统一建模提供了新范式。研究团队已开源代码与模型,方便社区复现与开发。

传统图文理解或图像生成模型的视觉编码特性差异显著。图文理解模型需提取高层语义,而图像生成模型依赖底层细节。这导致一体化多模态大模型面临视觉编码割裂和任务联合训练干扰两大难题。

UniToken采用统一的双边视觉编码器,结合VQ-GAN的离散编码与SigLIP的连续表征,形成兼容高层语义与底层细节的视觉编码。其训练分三阶段:第一阶段对齐视觉与语言空间;第二阶段联合训练图文理解与图像生成数据;第三阶段强化指令跟随能力。

实验显示,UniToken在图文理解与图像生成任务上均达到或超越现有SOTA水平。未来,通过扩大模型规模、增加训练数据量及拓展任务类型,UniToken有望进一步提升通用多模态大模型的能力。

原文链接
本文链接:https://kx.umi6.com/article/17757.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Nano Banana 2 突然现身!能画公式解数学题,监控画面都能伪造
2025-11-10 16:25:59
OpenAI 首次在瑞士设立办公室,招募翟晓华等 3 名谷歌工程师推进研发多模态 AI 模型
2024-12-06 10:19:31
OpenAI 从谷歌 DeepMind 挖角三名高级工程师,专注于多模态 AI 研发
2024-12-04 11:34:21
微软 Copilot 已支持 GPT-4o 图像生成技术,能力大提升
2025-05-19 19:24:47
小米大模型团队提出对角蛇形自回归图像生成方式
2025-04-18 17:22:44
谷歌Gemini火力全开!实测:原生图像生成新升级确实强
2025-05-08 12:28:50
百度旗下小度科技发布多模态 AI 助手“超能小度”,数千万台设备免费升级
2025-11-13 23:24:31
可能是目前效果最好的开源生图模型,混元生图3.0来了
2025-09-30 21:34:24
截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注
2025-03-13 15:23:45
NeurIPS 2024最佳论文揭晓!北大字节获最佳论文,清华厦大为亚军
2024-12-04 15:37:50
AI 的终点不是对话框,这家公司想让真实世界成为AI 的提示词
2025-08-20 10:12:38
阿里开源图像生成模型 Qwen-Image-Layered:能像 PS 一样分图层编辑
2025-12-22 17:54:03
扩散模型失宠?端侧非自回归图像生成基础模型Meissonic登场,超越SDXL!
2024-11-13 14:38:52
24小时热文
更多
扫一扫体验小程序