1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

“最强具身VLA大模型”,究竟强在哪儿?

henry 发自 凹非寺
量子位 | 公众号 QbitAI

机器人基础模型 π*0.6 自发布以来便引发广泛关注。它不仅能让机器人连续13小时制作咖啡、数小时折叠衣物,还能精准组装工厂包装纸箱,任务成功率高达90%以上。然而,真正让 π*0.6 脱颖而出的,是其引入的一种全新学习方法——RECAP(基于优势条件策略的经验与纠偏强化学习)。

RECAP 的核心在于通过人类示范和纠错指导,结合机器人自主经验优化策略。具体分为三个阶段:
1. 离线RL:利用多机器人、多任务的示范数据(包括失败数据)训练价值函数和策略;
2. 微调:用人类示范将模型适配到具体任务;
3. 在线阶段:机器人自主执行任务,结合专家在线纠偏和稀疏奖励更新策略。

传统模仿学习中,机器人只能复制“正确动作”,却无法从错误中恢复。而 RECAP 创新性地采用“优势条件化”策略,通过价值函数评估动作质量,并用优势值引导模型选择更优动作。这种方法避免了传统策略梯度方法对新鲜数据的依赖,充分利用异构数据,实现高效学习。

实验显示,π*0.6 在高难度任务(如折叠多样化衣物、制作咖啡)中表现优异,吞吐量提升一倍以上,失败率降低约50%。更重要的是,模型展现出极高的稳定性,例如连续13小时制作咖啡无需人为干预。

π*0.6 的突破还在于让机器人学会从错误中学习。通过专家遥操作纠正错误动作,以及基于价值函数的强化学习,模型能识别“关键步骤”与“错误来源”,从而不断优化策略。这种机制解决了传统模仿学习中“滚雪球式误差”的问题,为复杂真实环境中的机器人应用提供了可扩展的解决方案。

总结来说,π*0.6 不仅提升了任务执行能力,还证明了机器人可以从“不完美经验”中提炼高效学习信号,为未来研究开辟了全新方向。

参考链接:
[1] https://www.pi.website/download/pistar06.pdf
[2] https://www.pi.website/blog/pistar06
[3] https://www.physicalintelligence.company/download/pi05.pdf
[4] https://x.com/svlevine/status/1990574916622856290

原文链接
本文链接:https://kx.umi6.com/article/28896.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
智元机器人:机器人学习数据多样性研究取得新突破
2025-08-06 12:35:46
“最强具身VLA大模型”,究竟强在哪儿?
2025-11-21 16:29:20
石油巨头沙特阿美借 AI 降本增效,2025 年技术应用价值预计达 30-50 亿美元
2026-01-21 16:19:39
阿里云智能集团资深副总裁李飞飞:内存价格预计还会上涨两到三倍
2026-01-22 19:09:39
卢宗青团队新作:人类先验打底,统一动作对齐,通用机器人模型正在落地
2026-01-22 17:03:53
苏州“十五五”规划建议:培育壮大半导体与集成电路、智能网联新能源汽车、工业母机等新兴支柱产业
2026-01-21 20:30:12
全球消费,进入「中国定义」时间
2026-01-22 13:54:12
中国团队首次在Nature子刊发布医疗AI标准,未来医生MedGPT摘得全球桂冠
2026-01-21 13:06:32
AI推理GPU芯片公司曦望完成近30亿元融资
2026-01-22 16:05:02
融捷股份等成立新公司 含多项AI业务
2026-01-22 15:00:25
金山云星流全面升级,以智算穿越云上AI新周期
2026-01-22 17:01:20
知名游戏女主播怒斥AI修图 花大手笔清除不雅照
2026-01-22 08:43:34
粤芯半导体年产48万片晶圆生产线启动 总投资252亿元
2026-01-22 22:15:16
24小时热文
更多
扫一扫体验小程序