1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

小米发布首代机器人VLA大模型:低延迟、高智能,全面开源

小米近日推出了首个具身智能VLA大模型——Xiaomi-Robotics-0。这款模型以80ms的推理延迟和30Hz的实时控制频率,在消费级显卡(如RTX 4090)上即可流畅运行,刷新了多项仿真与真实环境基准测试的SOTA成绩,并且完全开源。

技术创新亮点

  1. 双脑协同架构
    Xiaomi-Robotics-0采用“大脑+小脑”分工设计。大脑部分基于视觉语言模型(VLM),负责全局感知与决策;小脑部分则引入16层Diffusion Transformer(DiT),专注于生成连续动作块。通过KV缓存松耦合连接,大脑将理解能力传递给小脑,从而实现毫秒级响应和平滑灵巧的动作输出。

  2. 两阶段预训练策略
    为避免模型在学习动作数据时丢失视觉理解能力,小米设计了两阶段预训练方案:第一阶段对齐视觉与动作空间,第二阶段冻结VLM,单独训练DiT进行精细化动作生成。这种策略确保模型既能读懂复杂指令,又能规划精准动作。

  3. 改良异步机制
    小米提出Λ形注意力掩码机制,解决传统异步执行中的“动作惯性”问题。该机制让模型在保证动作连续性的同时,强制重新审视当前环境反馈,从而实现实时修正与流畅操作。

硬核性能表现

Xiaomi-Robotics-0在LIBERO、CALVIN等主流仿真基准中全面领先,尤其在Libero-Object任务上达到100%成功率。在真实场景测试中,无论是叠毛巾还是拆卸乐高,模型均展现出高成功率与吞吐量优势,证明其具备强大的泛化能力与工业实用性。

小米的务实路线

结合此前开源的触觉驱动抓取模型TacRefineNet,可以看出小米正聚焦于工业落地场景。TacRefineNet提供毫米级精细调整,而Xiaomi-Robotics-0负责快速响应与连续控制,两者共同构建“眼-脑-手”协同体系,直面非结构化环境作业难题。

开源的意义

小米选择全面开源,不仅降低了中小开发者的研发门槛,还推动行业从营销导向转向技术细节讨论。作为基础设施建设者,小米展现了科技大厂的责任担当,为具身智能领域注入更多活力。

了解更多:技术主页 | GitHub | Hugging Face

原文链接
本文链接:https://kx.umi6.com/article/32934.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
智谱上线并开源文本转语音模型 GLM-TTS:只需 3 秒语音样本即可克隆声音
2025-12-11 10:42:18
连续发布两款万亿参数模型,蚂蚁 AI 来势汹汹
2025-10-11 16:31:47
钉钉CLI开源 原生支持ClaudeCode、Cursor、Qoder等
2026-03-27 21:22:12
面壁智能 AgentCPM-Explore 小模型开源:仅 4B 参数,挑战端侧智能体部署
2026-01-14 15:42:31
荣耀推出智能体基础模型MagicAgent 面向全球开源
2026-03-03 16:20:21
小米首席语音科学家 Daniel Povey:AI 发展的本质就像生物进化,不开源要慢 1000 倍
2025-12-15 16:49:04
2700GB高质量数据,训出空间智能SOTA,背后秘诀全栈开源
2026-03-31 14:51:34
腾讯混元开源翻译模型 1.5:手机 1GB 内存即可运行,效果超越商用 API
2025-12-30 16:27:33
阶跃星辰开源GUI Agent技术和4B GUI Agent模型
2025-12-01 15:15:24
企业级OpenClaw最强拍档来了!万亿参数的国产多模态大模型,刚刚开源发布
2026-03-05 19:45:14
超越 GPT-5 Nano,阿里通义 Qwen3-VL 系列全新成员 4B 与 8B 模型开源上线
2025-10-15 13:33:22
低调霸榜全球最难SQL榜单超两月,国产AI这次选择高调开源!
2025-12-14 22:01:20
智谱董事长刘德兵:完全支持开源,我们已开源 40 多款 AI 模型
2025-11-16 11:28:16
24小时热文
更多
扫一扫体验小程序