国产SOTA新模型精准get“画(3+6)条命的动物” | 开源
生成图像这件事,会推理的AI才是好AI。比如,以往给AI这样一句Prompt:“(3+6)条命的动物。”人类一眼知道是猫咪,但AI可能将其理解为单纯的数学题。传统AI生成的猫图虽形象,但未真正理解“九条命=猫”的含义。
为解决这一问题,清华大学、腾讯ARC Lab等联合推出新模型MindOmni,显著提升AI的推理生成能力。它不仅能理解复杂指令,还能基于图文内容生成连贯且可信的“思维链”,输出逻辑性强、语义一致的图像或文本。
MindOmni采用Qwen2.5-VL架构,结合预训练的ViT提取图像特征并编码文本,再通过OmniGen扩散解码器生成图像。连接器负责对齐视觉语言模型与生成模块的特征维度。模型通过三阶段训练逐步提升性能:第一阶段基础预训练,第二阶段CoT监督微调,第三阶段引入RGPO强化学习算法优化推理生成。
实验显示,MindOmni在图像理解与生成任务中表现卓越,尤其在WISE基准测试中,其推理生成能力远超同类模型。无论是生成猫图还是考虑时差的悉尼歌剧院场景,MindOmni均展现出强大的多模态推理能力。
原文链接
本文链接:https://kx.umi6.com/article/20536.html
转载请注明文章出处
相关推荐
.png)
换一换
阿里通义千问首个图像生成基础模型 Qwen-Image 开源,支持中文高保真输出
2025-08-05 08:08:59
实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!
2025-04-17 16:41:08
OpenAI 扩展 Responses API:支持 MCP、图像生成等
2025-05-22 11:28:26
Recraft 完成 3000 万美元 B 轮融资,其图像生成模型曾击败 DALL-E 和 Midjourney
2025-05-06 17:58:54
GRPO在《时空谜题》中击败o1、o3-mini和R1
2025-03-27 16:59:27
国产AI搜索接入DeepSeek-R1!我们深度试玩了一下
2025-02-03 10:06:40
AI独角兽Cohere创始人:我们不做ChatGPT的竞争对手;帮助企业采纳这项技术,并将其变得有价值
2024-12-09 14:26:34
GPT-4o的P图太火了,GPU在融化,官方终于限流了
2025-03-28 21:07:22
OpenAI 联合创始人 Ilya Sutskever 谈“超智能 AI”:将具备推理能力,会更加不可预测
2024-12-14 10:44:54
谷歌Gemini火力全开!实测:原生图像生成新升级确实强
2025-05-08 12:28:50
上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点
2024-11-28 15:29:46
智能驾驶水面之下,“AI推理之争”暗流涌动
2025-04-01 11:20:56
“起大早赶晚集”的谷歌大模型,这次真的“遥遥领先”了?
2025-03-26 20:07:52
525 文章
245825 浏览
24小时热文
更多

-
2025-10-23 21:15:29
-
2025-10-23 20:16:19
-
2025-10-23 20:15:12