小米的首代机器人VLA大模型来了！丝滑赛德芙，推理延迟仅80ms丨全面开源

2026-02-12 21:45:01

数码游侠

发布在

科普

阅读：167

小米发布首代机器人VLA大模型：低延迟、高智能，全面开源

小米近日推出了首个具身智能VLA大模型——Xiaomi-Robotics-0。这款模型以80ms的推理延迟和30Hz的实时控制频率，在消费级显卡（如RTX 4090）上即可流畅运行，刷新了多项仿真与真实环境基准测试的SOTA成绩，并且完全开源。

双脑协同架构
Xiaomi-Robotics-0采用“大脑+小脑”分工设计。大脑部分基于视觉语言模型（VLM），负责全局感知与决策；小脑部分则引入16层Diffusion Transformer（DiT），专注于生成连续动作块。通过KV缓存松耦合连接，大脑将理解能力传递给小脑，从而实现毫秒级响应和平滑灵巧的动作输出。
两阶段预训练策略
为避免模型在学习动作数据时丢失视觉理解能力，小米设计了两阶段预训练方案：第一阶段对齐视觉与动作空间，第二阶段冻结VLM，单独训练DiT进行精细化动作生成。这种策略确保模型既能读懂复杂指令，又能规划精准动作。
改良异步机制
小米提出Λ形注意力掩码机制，解决传统异步执行中的“动作惯性”问题。该机制让模型在保证动作连续性的同时，强制重新审视当前环境反馈，从而实现实时修正与流畅操作。