1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

5月30日,小米宣布开源其多模态大模型MiMo-VL。该模型在图片、视频及语言的理解与推理任务中表现优异,参数量仅为7B的情况下,在多项测试中显著优于10倍参数规模的阿里Qwen-2.5-VL-72B等模型,甚至超越闭源的GPT-4o,在内部评估中成为开源模型中的佼佼者。MiMo-VL-7B不仅具备强大的多模态推理能力,还能执行复杂的GUI操作,例如帮助用户将产品加入心愿单。小米采用高质量预训练数据和混合在线强化学习算法(MORL),通过多阶段预训练增强模型的多模态推理能力。目前,模型及相关评测框架已在GitHub和Hugging Face平台上开源,支持超过50项测评任务。

原文链接
本文链接:https://kx.umi6.com/article/19520.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
价格战开打!AI视频的「DeepSeek时刻」还远吗?
2025-03-24 16:01:56
DeepSeek V3小版本升级:7米甘蔗怎么过2米门 终于想通了
2025-03-25 09:47:04
3D版DeepSeek卷起开源月:两大基础模型率先SOTA!又是VAST
2025-03-28 18:57:12
24小时热文
更多
扫一扫体验小程序