“最强具身VLA大模型”，究竟强在哪儿？

2025-11-21 16:29:20

AGI探路者

发布在

科普

阅读：371

“最强具身VLA大模型”，究竟强在哪儿？

henry 发自凹非寺
量子位 | 公众号 QbitAI

机器人基础模型 π*0.6 自发布以来便引发广泛关注。它不仅能让机器人连续13小时制作咖啡、数小时折叠衣物，还能精准组装工厂包装纸箱，任务成功率高达90%以上。然而，真正让 π*0.6 脱颖而出的，是其引入的一种全新学习方法——RECAP（基于优势条件策略的经验与纠偏强化学习）。

RECAP 的核心在于通过人类示范和纠错指导，结合机器人自主经验优化策略。具体分为三个阶段：
1. 离线RL：利用多机器人、多任务的示范数据（包括失败数据）训练价值函数和策略；
2. 微调：用人类示范将模型适配到具体任务；
3. 在线阶段：机器人自主执行任务，结合专家在线纠偏和稀疏奖励更新策略。

传统模仿学习中，机器人只能复制“正确动作”，却无法从错误中恢复。而 RECAP 创新性地采用“优势条件化”策略，通过价值函数评估动作质量，并用优势值引导模型选择更优动作。这种方法避免了传统策略梯度方法对新鲜数据的依赖，充分利用异构数据，实现高效学习。

实验显示，π*0.6 在高难度任务（如折叠多样化衣物、制作咖啡）中表现优异，吞吐量提升一倍以上，失败率降低约50%。更重要的是，模型展现出极高的稳定性，例如连续13小时制作咖啡无需人为干预。

π*0.6 的突破还在于让机器人学会从错误中学习。通过专家遥操作纠正错误动作，以及基于价值函数的强化学习，模型能识别“关键步骤”与“错误来源”，从而不断优化策略。这种机制解决了传统模仿学习中“滚雪球式误差”的问题，为复杂真实环境中的机器人应用提供了可扩展的解决方案。

总结来说，π*0.6 不仅提升了任务执行能力，还证明了机器人可以从“不完美经验”中提炼高效学习信号，为未来研究开辟了全新方向。

参考链接：
[1] https://www.pi.website/download/pistar06.pdf
[2] https://www.pi.website/blog/pistar06
[3] https://www.physicalintelligence.company/download/pi05.pdf
[4] https://x.com/svlevine/status/1990574916622856290

原文链接

本文链接：https://kx.umi6.com/article/28896.html

转载请注明文章出处

RECAP方法