小米打通智驾和具身大模型，然后开源了

2025-11-26 13:46:42

小米打通智驾和具身大模型，然后开源了

未来笔触

发布在

科普

阅读：842

小米打通智驾和具身大模型，然后开源了

全球首个统一自动驾驶与机器人操作的基座模型开源了！小米汽车陈龙团队提出并开源了名为 MiMo-Embodied 的跨具身（X-Embodied）基座模型，成功解决了自驾与具身场景的知识迁移难题。

MiMo-Embodied 基于 MiMo-VL 架构，通过构建涵盖通用视觉、具身任务及驾驶场景的高质量数据集，并采用包含思维链（CoT）和强化学习（RL）的四阶段训练策略，有效弥合了室内操作与户外驾驶之间的领域鸿沟。实测显示，该模型在自动驾驶与具身智能共计 29 个基准测试中超越现有专用及通用模型，实现了跨领域的最先进性能。

传统视觉语言模型（VLMs）多专注于单一领域，缺乏统一性，导致领域差距和迁移困难。此外，评估体系缺失也限制了跨领域能力的衡量。为此，MiMo-Embodied 将自动驾驶与具身智能任务整合到一个统一模型中，通过以下架构实现：
1. Vision Transformer (ViT)：编码图像、视频等视觉输入；
2. 投影器（Projector）：将视觉信息映射到与大语言模型对齐的潜在空间；
3. 大语言模型（LLM）：结合视觉与文本进行推理，生成上下文相关的响应。

研究还开发了一套系统的数据构建与分阶段训练策略。数据涵盖通用多模态理解、具身智能（如可供性预测、任务规划）和自动驾驶（如环境感知、驾驶规划）。四阶段训练包括：
1. 具身智能监督微调；
2. 自动驾驶监督微调；
3. 思维链推理微调；
4. 强化学习微调。

实验表明，MiMo-Embodied 在具身导航、操作任务及自动驾驶复杂场景中均表现出色，尤其在转弯、避障和变道等交互式操作中提升显著。未来，团队计划基于该模型探索具身智能视觉-语言-动作（VLA）模型，以增强复杂环境中的交互能力。

论文一作郝孝帅博士今年8月加入小米汽车，项目负责人陈龙博士曾主导Wayve和Lyft的自动驾驶研发工作。相关资源已开源：
论文链接：https://arxiv.org/abs/2511.16518
GitHub：https://github.com/XiaomiMiMo/MiMo-Embodied
Huggingface：https://huggingface.co/XiaomiMiMo/MiMo-Embodied-7B

原文链接

本文链接：https://kx.umi6.com/article/29174.html

转载请注明文章出处

具身大模型