
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
5月30日,小米宣布开源其多模态大模型MiMo-VL。该模型在图片、视频及语言的理解与推理任务中表现优异,参数量仅为7B的情况下,在多项测试中显著优于10倍参数规模的阿里Qwen-2.5-VL-72B等模型,甚至超越闭源的GPT-4o,在内部评估中成为开源模型中的佼佼者。MiMo-VL-7B不仅具备强大的多模态推理能力,还能执行复杂的GUI操作,例如帮助用户将产品加入心愿单。小米采用高质量预训练数据和混合在线强化学习算法(MORL),通过多阶段预训练增强模型的多模态推理能力。目前,模型及相关评测框架已在GitHub和Hugging Face平台上开源,支持超过50项测评任务。
原文链接
加载更多

暂无内容