1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

国产SOTA新模型精准get“画(3+6)条命的动物” | 开源

生成图像这件事,会推理的AI才是好AI。比如,以往给AI这样一句Prompt:“(3+6)条命的动物。”人类一眼知道是猫咪,但AI可能将其理解为单纯的数学题。传统AI生成的猫图虽形象,但未真正理解“九条命=猫”的含义。

为解决这一问题,清华大学、腾讯ARC Lab等联合推出新模型MindOmni,显著提升AI的推理生成能力。它不仅能理解复杂指令,还能基于图文内容生成连贯且可信的“思维链”,输出逻辑性强、语义一致的图像或文本。

MindOmni采用Qwen2.5-VL架构,结合预训练的ViT提取图像特征并编码文本,再通过OmniGen扩散解码器生成图像。连接器负责对齐视觉语言模型与生成模块的特征维度。模型通过三阶段训练逐步提升性能:第一阶段基础预训练,第二阶段CoT监督微调,第三阶段引入RGPO强化学习算法优化推理生成。

实验显示,MindOmni在图像理解与生成任务中表现卓越,尤其在WISE基准测试中,其推理生成能力远超同类模型。无论是生成猫图还是考虑时差的悉尼歌剧院场景,MindOmni均展现出强大的多模态推理能力。

原文链接
本文链接:https://kx.umi6.com/article/20536.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
谷歌推出新一代图像生成与编辑模型NANO BANANA PRO
2025-11-20 23:50:41
国内最强生图模型Wan2.7-Image来了
2026-04-01 18:01:59
苹果最新研究:现有 AI 大模型“更像是在记忆,而非真正的推理”
2025-06-08 17:10:55
马斯克发布Grok 3,推理能力超o3和DeepSeek-R1
2025-02-18 15:28:47
选 AI 比选对象还难!“起名黑洞”OpenAI 的新模型,到底怎么选?
2025-04-21 14:42:07
Recraft 完成 3000 万美元 B 轮融资,其图像生成模型曾击败 DALL-E 和 Midjourney
2025-05-06 17:58:54
“AI小财神”推理能力全面升级 做投资者的“深度思考官”
2025-02-13 11:00:46
“计算机视觉被GPT-4o终结了”(狗头)
2025-03-29 17:49:47
“起大早赶晚集”的谷歌大模型,这次真的“遥遥领先”了?
2025-03-26 20:07:52
小米大模型团队提出对角蛇形自回归图像生成方式
2025-04-18 17:22:44
谷歌发布新一代图像生成模型 Nano Banana Pro:基于 Gemini 3 Pro 打造,支持 4K 分辨率与完美文字渲染
2025-11-20 23:48:33
搅动推理 AI 模型风云:谷歌被曝 1 月 23 日发布增强版 Gemini 2.0 Flash Thinking
2025-01-21 11:36:22
香蕉和GPT Image之外的第3条路:华人15人团队造出AI生图黑马
2026-05-06 17:26:42
24小时热文
更多
扫一扫体验小程序