国产SOTA新模型精准get“画(3+6)条命的动物” | 开源
生成图像这件事,会推理的AI才是好AI。比如,以往给AI这样一句Prompt:“(3+6)条命的动物。”人类一眼知道是猫咪,但AI可能将其理解为单纯的数学题。传统AI生成的猫图虽形象,但未真正理解“九条命=猫”的含义。
为解决这一问题,清华大学、腾讯ARC Lab等联合推出新模型MindOmni,显著提升AI的推理生成能力。它不仅能理解复杂指令,还能基于图文内容生成连贯且可信的“思维链”,输出逻辑性强、语义一致的图像或文本。
MindOmni采用Qwen2.5-VL架构,结合预训练的ViT提取图像特征并编码文本,再通过OmniGen扩散解码器生成图像。连接器负责对齐视觉语言模型与生成模块的特征维度。模型通过三阶段训练逐步提升性能:第一阶段基础预训练,第二阶段CoT监督微调,第三阶段引入RGPO强化学习算法优化推理生成。
实验显示,MindOmni在图像理解与生成任务中表现卓越,尤其在WISE基准测试中,其推理生成能力远超同类模型。无论是生成猫图还是考虑时差的悉尼歌剧院场景,MindOmni均展现出强大的多模态推理能力。
原文链接
本文链接:https://kx.umi6.com/article/20536.html
转载请注明文章出处
相关推荐
换一换
AI进步放缓、遭遇瓶颈?OpenAI等头部公司:不存在
2024-11-29 17:58:36
AI独角兽Cohere创始人:我们不做ChatGPT的竞争对手;帮助企业采纳这项技术,并将其变得有价值
2024-12-09 14:26:34
Nano Banana 2 突然现身!能画公式解数学题,监控画面都能伪造
2025-11-10 16:25:59
通义千问开源全新文生图模型Qwen-Image
2025-08-05 07:09:44
真如摄影、细至发丝!阿里开源新一代图像生成模型Qwen-Image
2025-12-31 21:40:29
百度 AI 搜索宣布全面接入 DeepSeek R1 最新版,推理能力更强
2025-05-31 16:07:25
腾讯混元图像2模型发布 支持文本、语音、草图等交互方式
2025-05-16 17:13:07
DeepSeek V3小版本大升级:推理、前端开发加强 这些能力超越GPT-4.5
2025-03-25 23:20:38
OpenAI发布GPT-4.1 ,吊打GPT-4.5,14万/月的博士级AI曝光
2025-04-15 08:22:07
ChatGPT 原生图像生成功能已向免费用户推出
2025-03-31 12:32:33
“起大早赶晚集”的谷歌大模型,这次真的“遥遥领先”了?
2025-03-26 20:07:52
OpenAI发布生图神器狙击Google,一句话精细P图
2025-03-26 08:41:03
GPT-4o图像生成今起免费!奥特曼坐镇紧急发布,指令遵循/文本控制表现惊艳
2025-03-26 10:43:57
673 文章
543977 浏览
24小时热文
更多
-
2026-04-24 16:19:57 -
2026-04-24 15:20:44 -
2026-04-24 15:19:39