1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

小米发布首代机器人VLA大模型:低延迟、高智能,全面开源

小米近日推出了首个具身智能VLA大模型——Xiaomi-Robotics-0。这款模型以80ms的推理延迟和30Hz的实时控制频率,在消费级显卡(如RTX 4090)上即可流畅运行,刷新了多项仿真与真实环境基准测试的SOTA成绩,并且完全开源。

技术创新亮点

  1. 双脑协同架构
    Xiaomi-Robotics-0采用“大脑+小脑”分工设计。大脑部分基于视觉语言模型(VLM),负责全局感知与决策;小脑部分则引入16层Diffusion Transformer(DiT),专注于生成连续动作块。通过KV缓存松耦合连接,大脑将理解能力传递给小脑,从而实现毫秒级响应和平滑灵巧的动作输出。

  2. 两阶段预训练策略
    为避免模型在学习动作数据时丢失视觉理解能力,小米设计了两阶段预训练方案:第一阶段对齐视觉与动作空间,第二阶段冻结VLM,单独训练DiT进行精细化动作生成。这种策略确保模型既能读懂复杂指令,又能规划精准动作。

  3. 改良异步机制
    小米提出Λ形注意力掩码机制,解决传统异步执行中的“动作惯性”问题。该机制让模型在保证动作连续性的同时,强制重新审视当前环境反馈,从而实现实时修正与流畅操作。

硬核性能表现

Xiaomi-Robotics-0在LIBERO、CALVIN等主流仿真基准中全面领先,尤其在Libero-Object任务上达到100%成功率。在真实场景测试中,无论是叠毛巾还是拆卸乐高,模型均展现出高成功率与吞吐量优势,证明其具备强大的泛化能力与工业实用性。

小米的务实路线

结合此前开源的触觉驱动抓取模型TacRefineNet,可以看出小米正聚焦于工业落地场景。TacRefineNet提供毫米级精细调整,而Xiaomi-Robotics-0负责快速响应与连续控制,两者共同构建“眼-脑-手”协同体系,直面非结构化环境作业难题。

开源的意义

小米选择全面开源,不仅降低了中小开发者的研发门槛,还推动行业从营销导向转向技术细节讨论。作为基础设施建设者,小米展现了科技大厂的责任担当,为具身智能领域注入更多活力。

了解更多:技术主页 | GitHub | Hugging Face

原文链接
本文链接:https://kx.umi6.com/article/32934.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
马斯克罕见低头:开源????推荐算法,自嘲“很烂”不过未来月更
2026-01-21 13:07:44
力压Seedance 2.0! 神秘AI模型登全球AI评测榜第一名:正式宣布开源
2026-04-09 12:05:02
小米回应“进军AI教育”:人才招聘被误读 实为强化产品服务
2025-12-10 17:06:14
智谱董事长刘德兵:完全支持开源,我们已开源 40 多款 AI 模型
2025-11-16 11:28:16
2700GB高质量数据,训出空间智能SOTA,背后秘诀全栈开源
2026-03-31 14:51:34
小米发布 Miloco 智能家居未来探索方案,对全社会开放
2025-11-14 15:02:49
三部门:开展智能体与开源芯片、开源操作系统、开源大模型兼容适配
2026-05-08 18:36:29
腾讯混元开源翻译模型 1.5:手机 1GB 内存即可运行,效果超越商用 API
2025-12-30 16:27:33
小米全面开源具身大模型MiMo-Embodied
2025-11-21 21:43:50
荣耀推出智能体基础模型MagicAgent 面向全球开源
2026-03-03 16:20:21
阿里发布三款中型千问3.5新模型,每百万Token低至0.2元
2026-02-25 15:25:53
小米或进军AI教育领域 正招聘多个相关岗位 聚焦多终端K12教育方向
2025-12-10 11:44:24
企业级OpenClaw最强拍档来了!万亿参数的国产多模态大模型,刚刚开源发布
2026-03-05 19:45:14
24小时热文
更多
扫一扫体验小程序