1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

小米打通智驾和具身大模型,然后开源了

全球首个统一自动驾驶与机器人操作的基座模型开源了!小米汽车陈龙团队提出并开源了名为 MiMo-Embodied 的跨具身(X-Embodied)基座模型,成功解决了自驾与具身场景的知识迁移难题。

MiMo-Embodied 基于 MiMo-VL 架构,通过构建涵盖通用视觉、具身任务及驾驶场景的高质量数据集,并采用包含思维链(CoT)和强化学习(RL)的四阶段训练策略,有效弥合了室内操作与户外驾驶之间的领域鸿沟。实测显示,该模型在自动驾驶与具身智能共计 29 个基准测试中超越现有专用及通用模型,实现了跨领域的最先进性能。

传统视觉语言模型(VLMs)多专注于单一领域,缺乏统一性,导致领域差距和迁移困难。此外,评估体系缺失也限制了跨领域能力的衡量。为此,MiMo-Embodied 将自动驾驶与具身智能任务整合到一个统一模型中,通过以下架构实现:
1. Vision Transformer (ViT):编码图像、视频等视觉输入;
2. 投影器(Projector):将视觉信息映射到与大语言模型对齐的潜在空间;
3. 大语言模型(LLM):结合视觉与文本进行推理,生成上下文相关的响应。

研究还开发了一套系统的数据构建与分阶段训练策略。数据涵盖通用多模态理解、具身智能(如可供性预测、任务规划)和自动驾驶(如环境感知、驾驶规划)。四阶段训练包括:
1. 具身智能监督微调;
2. 自动驾驶监督微调;
3. 思维链推理微调;
4. 强化学习微调。

实验表明,MiMo-Embodied 在具身导航、操作任务及自动驾驶复杂场景中均表现出色,尤其在转弯、避障和变道等交互式操作中提升显著。未来,团队计划基于该模型探索具身智能视觉-语言-动作(VLA)模型,以增强复杂环境中的交互能力。

论文一作郝孝帅博士今年8月加入小米汽车,项目负责人陈龙博士曾主导Wayve和Lyft的自动驾驶研发工作。相关资源已开源:
论文链接:https://arxiv.org/abs/2511.16518
GitHub:https://github.com/XiaomiMiMo/MiMo-Embodied
Huggingface:https://huggingface.co/XiaomiMiMo/MiMo-Embodied-7B

原文链接
本文链接:https://kx.umi6.com/article/29174.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
小米最新大模型成果!罗福莉现身了
2025-10-17 16:21:28
比亚迪华为联手,攻破传统汽车最后堡垒
2025-02-25 12:51:58
小米向月之暗面转让多枚Kimi商标
2025-06-03 10:56:46
小米 Mi-BRAG 智能引擎亮相:用 AI 问答代替产品说明书,登上评测榜首
2025-05-06 20:57:43
iPhone16销量爆冷?苹果Q4在华销售额大跌18% 被华为小米反超
2025-01-21 17:45:06
小米紧急回应格力诉讼;夸克升级“超级搜索框” 推出AI搜索为中心的一站式AI服务|AI daily早新闻
2024-07-11 10:54:38
小米真AI智能眼镜下月发布:双芯架构、自带镜头
2025-03-28 11:45:17
中信建投汽车2026年投资策略展望:智驾蓄力,机器人突破,汽车科技属性进阶
2025-11-11 08:58:56
格力状告小米 法院判决专利侵权成立;中概股强劲反弹 纳斯达克金龙指数上涨超2%|AI daily早新闻
2024-07-10 12:08:02
小米:未来三年 AI领域计划投入至少600亿元
2026-03-19 21:39:18
“AI才女”罗福莉被雷军挖角成功?小米内部系统目前没有相关信息
2025-02-18 16:26:43
该重新认识下雷军了
2025-03-19 08:18:33
小米Rokid雷鸟李未可,开启百镜大战2.0
2025-07-08 08:40:22
24小时热文
更多
扫一扫体验小程序