“最强具身VLA大模型”,究竟强在哪儿?
henry 发自 凹非寺
量子位 | 公众号 QbitAI
机器人基础模型 π*0.6 自发布以来便引发广泛关注。它不仅能让机器人连续13小时制作咖啡、数小时折叠衣物,还能精准组装工厂包装纸箱,任务成功率高达90%以上。然而,真正让 π*0.6 脱颖而出的,是其引入的一种全新学习方法——RECAP(基于优势条件策略的经验与纠偏强化学习)。
RECAP 的核心在于通过人类示范和纠错指导,结合机器人自主经验优化策略。具体分为三个阶段:
1. 离线RL:利用多机器人、多任务的示范数据(包括失败数据)训练价值函数和策略;
2. 微调:用人类示范将模型适配到具体任务;
3. 在线阶段:机器人自主执行任务,结合专家在线纠偏和稀疏奖励更新策略。
传统模仿学习中,机器人只能复制“正确动作”,却无法从错误中恢复。而 RECAP 创新性地采用“优势条件化”策略,通过价值函数评估动作质量,并用优势值引导模型选择更优动作。这种方法避免了传统策略梯度方法对新鲜数据的依赖,充分利用异构数据,实现高效学习。
实验显示,π*0.6 在高难度任务(如折叠多样化衣物、制作咖啡)中表现优异,吞吐量提升一倍以上,失败率降低约50%。更重要的是,模型展现出极高的稳定性,例如连续13小时制作咖啡无需人为干预。
π*0.6 的突破还在于让机器人学会从错误中学习。通过专家遥操作纠正错误动作,以及基于价值函数的强化学习,模型能识别“关键步骤”与“错误来源”,从而不断优化策略。这种机制解决了传统模仿学习中“滚雪球式误差”的问题,为复杂真实环境中的机器人应用提供了可扩展的解决方案。
总结来说,π*0.6 不仅提升了任务执行能力,还证明了机器人可以从“不完美经验”中提炼高效学习信号,为未来研究开辟了全新方向。
参考链接:
[1] https://www.pi.website/download/pistar06.pdf
[2] https://www.pi.website/blog/pistar06
[3] https://www.physicalintelligence.company/download/pi05.pdf
[4] https://x.com/svlevine/status/1990574916622856290
-
2025-11-22 11:13:31 -
2025-11-22 11:11:26 -
2025-11-22 10:13:11