1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

小米发布首代机器人VLA大模型:低延迟、高智能,全面开源

小米近日推出了首个具身智能VLA大模型——Xiaomi-Robotics-0。这款模型以80ms的推理延迟和30Hz的实时控制频率,在消费级显卡(如RTX 4090)上即可流畅运行,刷新了多项仿真与真实环境基准测试的SOTA成绩,并且完全开源。

技术创新亮点

  1. 双脑协同架构
    Xiaomi-Robotics-0采用“大脑+小脑”分工设计。大脑部分基于视觉语言模型(VLM),负责全局感知与决策;小脑部分则引入16层Diffusion Transformer(DiT),专注于生成连续动作块。通过KV缓存松耦合连接,大脑将理解能力传递给小脑,从而实现毫秒级响应和平滑灵巧的动作输出。

  2. 两阶段预训练策略
    为避免模型在学习动作数据时丢失视觉理解能力,小米设计了两阶段预训练方案:第一阶段对齐视觉与动作空间,第二阶段冻结VLM,单独训练DiT进行精细化动作生成。这种策略确保模型既能读懂复杂指令,又能规划精准动作。

  3. 改良异步机制
    小米提出Λ形注意力掩码机制,解决传统异步执行中的“动作惯性”问题。该机制让模型在保证动作连续性的同时,强制重新审视当前环境反馈,从而实现实时修正与流畅操作。

硬核性能表现

Xiaomi-Robotics-0在LIBERO、CALVIN等主流仿真基准中全面领先,尤其在Libero-Object任务上达到100%成功率。在真实场景测试中,无论是叠毛巾还是拆卸乐高,模型均展现出高成功率与吞吐量优势,证明其具备强大的泛化能力与工业实用性。

小米的务实路线

结合此前开源的触觉驱动抓取模型TacRefineNet,可以看出小米正聚焦于工业落地场景。TacRefineNet提供毫米级精细调整,而Xiaomi-Robotics-0负责快速响应与连续控制,两者共同构建“眼-脑-手”协同体系,直面非结构化环境作业难题。

开源的意义

小米选择全面开源,不仅降低了中小开发者的研发门槛,还推动行业从营销导向转向技术细节讨论。作为基础设施建设者,小米展现了科技大厂的责任担当,为具身智能领域注入更多活力。

了解更多:技术主页 | GitHub | Hugging Face

原文链接
本文链接:https://kx.umi6.com/article/32934.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026
2025-12-16 09:28:45
通义万相全新动作生成模型开源
2025-09-19 15:17:03
打破全球语言壁垒:Meta 推出支持 1600 种语言的语音识别系统并开源
2025-11-11 18:20:16
小米的首代机器人VLA大模型来了!丝滑赛德芙,推理延迟仅80ms丨全面开源
2026-02-12 21:45:01
外滩大会今年太AI了!王坚暴论:OpenAI确实站在了历史错误的一边
2025-09-12 12:10:41
智谱上线并开源文本转语音模型 GLM-TTS:只需 3 秒语音样本即可克隆声音
2025-12-11 10:42:18
英伟达开源Newton引擎与GR00T N1.6模型
2025-09-30 08:28:35
月之暗面杨植麟、周昕宇、吴育昕罕见回应一切:打假 460 万美元、调侃 OpenAI
2025-11-12 09:56:27
小米网页 AI 聊天服务惊喜亮相,MiMo-V2-Flash 模型发布、代码能力开源最强
2025-12-17 00:07:31
商汤开源空间智能大模型SenseNova-SI
2025-11-11 08:59:30
美团视频生成模型正式发布并开源
2025-10-27 11:00:45
小米集团创始人雷军:AI大模型是智能网联汽车的未来趋势
2025-10-16 18:00:06
深创投人工智能和具身机器人产业基金成立 出资额15.5亿
2025-10-09 09:24:29
24小时热文
更多
扫一扫体验小程序