标题:UniToken:多模态AI的“全能选手”,一次编码搞定图文理解与图像生成!
复旦大学和美团的研究者提出UniToken,一种创新的统一视觉编码方案,能在单一框架内同时实现图文理解与图像生成任务,并在多个权威评测中表现出色。
UniToken通过融合连续和离散视觉表征,解决了以往方法中“任务干扰”和“表示割裂”的问题,为多模态统一建模提供了新范式。研究团队已开源代码与模型,方便社区复现与开发。
传统图文理解或图像生成模型的视觉编码特性差异显著。图文理解模型需提取高层语义,而图像生成模型依赖底层细节。这导致一体化多模态大模型面临视觉编码割裂和任务联合训练干扰两大难题。
UniToken采用统一的双边视觉编码器,结合VQ-GAN的离散编码与SigLIP的连续表征,形成兼容高层语义与底层细节的视觉编码。其训练分三阶段:第一阶段对齐视觉与语言空间;第二阶段联合训练图文理解与图像生成数据;第三阶段强化指令跟随能力。
实验显示,UniToken在图文理解与图像生成任务上均达到或超越现有SOTA水平。未来,通过扩大模型规模、增加训练数据量及拓展任务类型,UniToken有望进一步提升通用多模态大模型的能力。
原文链接
本文链接:https://kx.umi6.com/article/17757.html
转载请注明文章出处
相关推荐
.png)
换一换
英特尔发布 OpenVINO 2025.0:新增图像生成场景与 DeepSeek 蒸馏模型支持
2025-02-15 14:02:57
Llama也能做图像生成!港大字节推出开源自回归文生图模型,在线体验已开放
2024-07-03 16:53:44
OpenAI 从谷歌 DeepMind 挖角三名高级工程师,专注于多模态 AI 研发
2024-12-04 11:34:21
GPT-4o骗了所有人,逐行画图只是前端特效?!底层架构细节成迷,奥特曼呼吁大家别玩了
2025-03-31 12:26:06
Recraft 完成 3000 万美元 B 轮融资,其图像生成模型曾击败 DALL-E 和 Midjourney
2025-05-06 17:58:54
截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注
2025-03-13 15:23:45
国产SOTA新模型精准get“画(3+6)条命的动物” | 开源
2025-06-20 17:00:54
AI 的终点不是对话框,这家公司想让真实世界成为AI 的提示词
2025-08-20 10:12:38
ChatGPT能靠吉卜力风翻盘吗?
2025-04-09 18:01:29
GPT-4o图像生成今起免费!奥特曼坐镇紧急发布,指令遵循/文本控制表现惊艳
2025-03-26 10:43:57
8张GPU训出近SOTA模型,超低成本图像生成预训练方案开源
2025-03-19 12:25:56
通义千问开源全新文生图模型Qwen-Image
2025-08-05 07:09:44
OpenAI 首次在瑞士设立办公室,招募翟晓华等 3 名谷歌工程师推进研发多模态 AI 模型
2024-12-06 10:19:31
467 文章
167974 浏览
24小时热文
更多

-
2025-09-08 12:58:45
-
2025-09-08 12:57:57
-
2025-09-08 12:57:41