小米多模态大模型

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

小米多模态大模型 MiMo-VL 开源，官方称多方面领先 Qwen2.5-VL-7B

5月30日，小米宣布开源其多模态大模型MiMo-VL。该模型在图片、视频及语言的理解与推理任务中表现优异，参数量仅为7B的情况下，在多项测试中显著优于10倍参数规模的阿里Qwen-2.5-VL-72B等模型，甚至超越闭源的GPT-4o，在内部评估中成为开源模型中的佼佼者。MiMo-VL-7B不仅具备强大的多模态推理能力，还能执行复杂的GUI操作，例如帮助用户将产品加入心愿单。小米采用高质量预训练数据和混合在线强化学习算法（MORL），通过多阶段预训练增强模型的多模态推理能力。目前，模型及相关评测框架已在GitHub和Hugging Face平台上开源，支持超过50项测评任务。

原文链接