1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

国产SOTA新模型精准get“画(3+6)条命的动物” | 开源

生成图像这件事,会推理的AI才是好AI。比如,以往给AI这样一句Prompt:“(3+6)条命的动物。”人类一眼知道是猫咪,但AI可能将其理解为单纯的数学题。传统AI生成的猫图虽形象,但未真正理解“九条命=猫”的含义。

为解决这一问题,清华大学、腾讯ARC Lab等联合推出新模型MindOmni,显著提升AI的推理生成能力。它不仅能理解复杂指令,还能基于图文内容生成连贯且可信的“思维链”,输出逻辑性强、语义一致的图像或文本。

MindOmni采用Qwen2.5-VL架构,结合预训练的ViT提取图像特征并编码文本,再通过OmniGen扩散解码器生成图像。连接器负责对齐视觉语言模型与生成模块的特征维度。模型通过三阶段训练逐步提升性能:第一阶段基础预训练,第二阶段CoT监督微调,第三阶段引入RGPO强化学习算法优化推理生成。

实验显示,MindOmni在图像理解与生成任务中表现卓越,尤其在WISE基准测试中,其推理生成能力远超同类模型。无论是生成猫图还是考虑时差的悉尼歌剧院场景,MindOmni均展现出强大的多模态推理能力。

原文链接
本文链接:https://kx.umi6.com/article/20536.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
地球上最聪明的AI!马斯克发布Grok 3:秒杀GPT 超越DeepSeek
2025-02-18 13:21:40
OpenAI 联合创始人 Ilya Sutskever 谈“超智能 AI”:将具备推理能力,会更加不可预测
2024-12-14 10:44:54
阶跃星辰李璟:2025年将是Agent落地元年 推理能力和多模态是研究重点
2025-03-12 13:29:09
24小时热文
更多
扫一扫体验小程序