1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

“最强具身VLA大模型”,究竟强在哪儿?

henry 发自 凹非寺
量子位 | 公众号 QbitAI

机器人基础模型 π*0.6 自发布以来便引发广泛关注。它不仅能让机器人连续13小时制作咖啡、数小时折叠衣物,还能精准组装工厂包装纸箱,任务成功率高达90%以上。然而,真正让 π*0.6 脱颖而出的,是其引入的一种全新学习方法——RECAP(基于优势条件策略的经验与纠偏强化学习)。

RECAP 的核心在于通过人类示范和纠错指导,结合机器人自主经验优化策略。具体分为三个阶段:
1. 离线RL:利用多机器人、多任务的示范数据(包括失败数据)训练价值函数和策略;
2. 微调:用人类示范将模型适配到具体任务;
3. 在线阶段:机器人自主执行任务,结合专家在线纠偏和稀疏奖励更新策略。

传统模仿学习中,机器人只能复制“正确动作”,却无法从错误中恢复。而 RECAP 创新性地采用“优势条件化”策略,通过价值函数评估动作质量,并用优势值引导模型选择更优动作。这种方法避免了传统策略梯度方法对新鲜数据的依赖,充分利用异构数据,实现高效学习。

实验显示,π*0.6 在高难度任务(如折叠多样化衣物、制作咖啡)中表现优异,吞吐量提升一倍以上,失败率降低约50%。更重要的是,模型展现出极高的稳定性,例如连续13小时制作咖啡无需人为干预。

π*0.6 的突破还在于让机器人学会从错误中学习。通过专家遥操作纠正错误动作,以及基于价值函数的强化学习,模型能识别“关键步骤”与“错误来源”,从而不断优化策略。这种机制解决了传统模仿学习中“滚雪球式误差”的问题,为复杂真实环境中的机器人应用提供了可扩展的解决方案。

总结来说,π*0.6 不仅提升了任务执行能力,还证明了机器人可以从“不完美经验”中提炼高效学习信号,为未来研究开辟了全新方向。

参考链接:
[1] https://www.pi.website/download/pistar06.pdf
[2] https://www.pi.website/blog/pistar06
[3] https://www.physicalintelligence.company/download/pi05.pdf
[4] https://x.com/svlevine/status/1990574916622856290

原文链接
本文链接:https://kx.umi6.com/article/28896.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
“最强具身VLA大模型”,究竟强在哪儿?
2025-11-21 16:29:20
智元机器人:机器人学习数据多样性研究取得新突破
2025-08-06 12:35:46
马斯克的 AI 聊天机器人 Grok 发表否认“大屠杀”言论,遭法国调查
2025-11-20 22:45:48
华为发布AI新技术:单卡同时承载多AI工作负载 提升硬件资源利用率
2025-11-21 16:31:21
Nano Banana升级版上线!全网疯狂实测ing…
2025-11-21 15:25:55
美联储副主席杰斐逊:AI企业的上涨潮不太可能重演当年互联网泡沫的情景
2025-11-21 22:46:15
OpenAI 正式上线 ChatGPT 群聊:最高支持 20 人,AI 也能参与头脑风暴
2025-11-21 09:09:27
蚂蚁灵光闪应用功能被“挤爆”,上线两天下载量破 50 万
2025-11-20 22:44:41
存储“超级周期”遭遇考验?扩产预期引发龙头股价巨震
2025-11-21 17:35:00
鸿海董事长刘扬伟:未来三至五年投入AI基础建设与技术开发的资金将占鸿海每年资本支出一半以上
2025-11-21 12:20:53
研究:马斯克的 Grokipedia 大量引用仇恨、阴谋论网站信息
2025-11-20 20:39:42
趋境开源框架 KTransformers 成主流大模型首选,Qwen、Kimi、智谱 AI 推荐,单卡跑万亿模型
2025-11-20 22:47:09
Gemini 3 登场后,哈萨比斯要「改造」Google 全系产品
2025-11-21 12:18:40
24小时热文
更多
扫一扫体验小程序