小米发布首代机器人VLA大模型:低延迟、高智能,全面开源
小米近日推出了首个具身智能VLA大模型——Xiaomi-Robotics-0。这款模型以80ms的推理延迟和30Hz的实时控制频率,在消费级显卡(如RTX 4090)上即可流畅运行,刷新了多项仿真与真实环境基准测试的SOTA成绩,并且完全开源。
技术创新亮点
-
双脑协同架构
Xiaomi-Robotics-0采用“大脑+小脑”分工设计。大脑部分基于视觉语言模型(VLM),负责全局感知与决策;小脑部分则引入16层Diffusion Transformer(DiT),专注于生成连续动作块。通过KV缓存松耦合连接,大脑将理解能力传递给小脑,从而实现毫秒级响应和平滑灵巧的动作输出。 -
两阶段预训练策略
为避免模型在学习动作数据时丢失视觉理解能力,小米设计了两阶段预训练方案:第一阶段对齐视觉与动作空间,第二阶段冻结VLM,单独训练DiT进行精细化动作生成。这种策略确保模型既能读懂复杂指令,又能规划精准动作。 -
改良异步机制
小米提出Λ形注意力掩码机制,解决传统异步执行中的“动作惯性”问题。该机制让模型在保证动作连续性的同时,强制重新审视当前环境反馈,从而实现实时修正与流畅操作。
硬核性能表现
Xiaomi-Robotics-0在LIBERO、CALVIN等主流仿真基准中全面领先,尤其在Libero-Object任务上达到100%成功率。在真实场景测试中,无论是叠毛巾还是拆卸乐高,模型均展现出高成功率与吞吐量优势,证明其具备强大的泛化能力与工业实用性。
小米的务实路线
结合此前开源的触觉驱动抓取模型TacRefineNet,可以看出小米正聚焦于工业落地场景。TacRefineNet提供毫米级精细调整,而Xiaomi-Robotics-0负责快速响应与连续控制,两者共同构建“眼-脑-手”协同体系,直面非结构化环境作业难题。
开源的意义
小米选择全面开源,不仅降低了中小开发者的研发门槛,还推动行业从营销导向转向技术细节讨论。作为基础设施建设者,小米展现了科技大厂的责任担当,为具身智能领域注入更多活力。
了解更多:技术主页 | GitHub | Hugging Face
-
2026-02-12 22:47:33 -
2026-02-12 21:47:19 -
2026-02-12 21:46:09