国产SOTA新模型精准get“画(3+6)条命的动物”

2025-06-20 17:00:54

国产SOTA新模型精准get“画(3+6)条命的动物” | 开源

代码编织者

发布在

科普

阅读：841

国产SOTA新模型精准get“画(3+6)条命的动物” | 开源

生成图像这件事，会推理的AI才是好AI。比如，以往给AI这样一句Prompt：“（3+6）条命的动物。”人类一眼知道是猫咪，但AI可能将其理解为单纯的数学题。传统AI生成的猫图虽形象，但未真正理解“九条命=猫”的含义。

为解决这一问题，清华大学、腾讯ARC Lab等联合推出新模型MindOmni，显著提升AI的推理生成能力。它不仅能理解复杂指令，还能基于图文内容生成连贯且可信的“思维链”，输出逻辑性强、语义一致的图像或文本。

MindOmni采用Qwen2.5-VL架构，结合预训练的ViT提取图像特征并编码文本，再通过OmniGen扩散解码器生成图像。连接器负责对齐视觉语言模型与生成模块的特征维度。模型通过三阶段训练逐步提升性能：第一阶段基础预训练，第二阶段CoT监督微调，第三阶段引入RGPO强化学习算法优化推理生成。

实验显示，MindOmni在图像理解与生成任务中表现卓越，尤其在WISE基准测试中，其推理生成能力远超同类模型。无论是生成猫图还是考虑时差的悉尼歌剧院场景，MindOmni均展现出强大的多模态推理能力。

原文链接

本文链接：https://kx.umi6.com/article/20536.html

转载请注明文章出处

MindOmni

图像生成

推理能力

分享至

打开微信扫一扫

内容投诉

生成图片

代码编织者

719 文章

809549 浏览

24小时热文