5月30日,小米宣布开源其多模态大模型MiMo-VL。该模型在图片、视频及语言的理解与推理任务中表现优异,参数量仅为7B的情况下,在多项测试中显著优于10倍参数规模的阿里Qwen-2.5-VL-72B等模型,甚至超越闭源的GPT-4o,在内部评估中成为开源模型中的佼佼者。MiMo-VL-7B不仅具备强大的多模态推理能力,还能执行复杂的GUI操作,例如帮助用户将产品加入心愿单。小米采用高质量预训练数据和混合在线强化学习算法(MORL),通过多阶段预训练增强模型的多模态推理能力。目前,模型及相关评测框架已在GitHub和Hugging Face平台上开源,支持超过50项测评任务。
原文链接
本文链接:https://kx.umi6.com/article/19520.html
转载请注明文章出处
相关推荐
.png)
换一换
价格战开打!AI视频的「DeepSeek时刻」还远吗?
2025-03-24 16:01:56
DeepSeek V3小版本升级:7米甘蔗怎么过2米门 终于想通了
2025-03-25 09:47:04
3D版DeepSeek卷起开源月:两大基础模型率先SOTA!又是VAST
2025-03-28 18:57:12
474 文章
57406 浏览
24小时热文
更多

-
2025-07-19 14:57:21
-
2025-07-19 14:56:08
-
2025-07-19 14:55:01