1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

“最强具身VLA大模型”,究竟强在哪儿?

henry 发自 凹非寺
量子位 | 公众号 QbitAI

机器人基础模型 π*0.6 自发布以来便引发广泛关注。它不仅能让机器人连续13小时制作咖啡、数小时折叠衣物,还能精准组装工厂包装纸箱,任务成功率高达90%以上。然而,真正让 π*0.6 脱颖而出的,是其引入的一种全新学习方法——RECAP(基于优势条件策略的经验与纠偏强化学习)。

RECAP 的核心在于通过人类示范和纠错指导,结合机器人自主经验优化策略。具体分为三个阶段:
1. 离线RL:利用多机器人、多任务的示范数据(包括失败数据)训练价值函数和策略;
2. 微调:用人类示范将模型适配到具体任务;
3. 在线阶段:机器人自主执行任务,结合专家在线纠偏和稀疏奖励更新策略。

传统模仿学习中,机器人只能复制“正确动作”,却无法从错误中恢复。而 RECAP 创新性地采用“优势条件化”策略,通过价值函数评估动作质量,并用优势值引导模型选择更优动作。这种方法避免了传统策略梯度方法对新鲜数据的依赖,充分利用异构数据,实现高效学习。

实验显示,π*0.6 在高难度任务(如折叠多样化衣物、制作咖啡)中表现优异,吞吐量提升一倍以上,失败率降低约50%。更重要的是,模型展现出极高的稳定性,例如连续13小时制作咖啡无需人为干预。

π*0.6 的突破还在于让机器人学会从错误中学习。通过专家遥操作纠正错误动作,以及基于价值函数的强化学习,模型能识别“关键步骤”与“错误来源”,从而不断优化策略。这种机制解决了传统模仿学习中“滚雪球式误差”的问题,为复杂真实环境中的机器人应用提供了可扩展的解决方案。

总结来说,π*0.6 不仅提升了任务执行能力,还证明了机器人可以从“不完美经验”中提炼高效学习信号,为未来研究开辟了全新方向。

参考链接:
[1] https://www.pi.website/download/pistar06.pdf
[2] https://www.pi.website/blog/pistar06
[3] https://www.physicalintelligence.company/download/pi05.pdf
[4] https://x.com/svlevine/status/1990574916622856290

原文链接
本文链接:https://kx.umi6.com/article/28896.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
智元机器人:机器人学习数据多样性研究取得新突破
2025-08-06 12:35:46
“最强具身VLA大模型”,究竟强在哪儿?
2025-11-21 16:29:20
2026年,AI初创全球化的「变与不变」|沙龙招募
2026-03-06 19:27:03
华泰证券:美以伊冲突下油价高涨或将推升电价
2026-03-10 09:02:22
全国人大代表杭迎伟:打造水务全产业链机器人矩阵
2026-03-06 19:29:11
李开复谈OpenClaw:今年是“企业多智能体上岗”元年
2026-03-06 15:13:08
88岁图灵奖得主,用Claude一小时破解30年数学悬案
2026-03-09 13:41:57
千问首款AI硬件 千问AI眼镜G1开售:首创热插拔换电 无限续航 国补1997元起
2026-03-08 09:51:13
文远知行与吉利远程深化战略合作,2026年交付2000台前装量产Robotaxi GXR
2026-03-09 13:44:22
无垠拓界 基筑未来|无问智科重磅发布业界首个物理AI数据基座平台
2026-03-06 15:07:52
千问AI眼镜G1现货开售
2026-03-08 10:54:49
上海人工智能实验室推出DeepLink多元算力混合推理加速方案
2026-03-09 15:53:40
美以伊冲突社媒充斥大量AI图像 画面真假难辨
2026-03-06 20:34:53
24小时热文
更多
扫一扫体验小程序