具身大模型R1时刻:LIBERO终结者,99.9%背后的物理推理新范式
机器人拉拉链需要“脑子”吗?过去几年,从OpenVLA到π0、π0.5,具身大模型已能将指令与动作结合得有模有样。但一旦环境稍有变化,如包的位置挪了几厘米或光照变暗,它们往往“宕机”。原因在于,这些模型大多依赖“观察→动作”的直接映射,缺乏对物理逻辑的理解。
现在,一种让机器人“先思考再行动”的新范式来了!由至简动力、北大和港中文联合提出的LaST-R1,首次将隐空间物理推理引入强化学习闭环。作为LaST₀基座模型的后训练范式,LaST₀首创面向机器人的隐空间物理思维链推理,并入选ICML2026 Spotlight(top 2.2%)。
LaST-R1的表现令人惊叹:
- 仿真满分:在LIBERO基准测试中,仅需1条轨迹预热,平均成功率高达99.9%;
- 真机性能飞跃:在复杂任务中,比当前最强模型π0.5高出22.5%;
- 泛化能力强大:即使更换物体、背景或光照,依然稳定执行,真正实现了“物理思考”。
传统具身大模型常因缺少“思考层”而难以泛化。例如,机器人可能记住100种拉拉链轨迹,但角度偏转或光照变化时便失效。LaST-R1的核心突破是放弃低效的语言推理,转而在隐空间构建物理推理链,让机器人在行动前建模场景结构、物体关系及动态变化。
LaST-R1通过以下三步实现这一目标:
1. 物理隐空间推理:在latent space中建模场景和物理动态,而非直接生成动作;
2. 联合优化推理与动作:提出LAPO算法,让环境反馈同时优化“怎么想”和“怎么动”;
3. 自适应推理机制:根据不同任务动态调整推理长度,简单任务快速执行,复杂任务多加思考。
实验结果表明,LaST-R1在仿真和真实环境中均表现优异:
- 在LIBERO基准测试中,平均成功率99.9%,远超其他模型;
- 真机任务中,仅用30条轨迹预热,成功率从52.5%提升至93.75%,显著优于使用100条专家轨迹的π0.5(71.25%);
- 泛化测试中,在未见过的物体、背景或光照条件下,性能下降极小,展现出强大的鲁棒性。
LaST-R1的意义不仅在于高成功率,更在于提出了一种新的后训练范式:强化学习应同时优化动作和背后的物理推理过程。通过LAPO和自适应推理机制,机器人逐步学会在交互中强化物理推理能力。
论文链接: https://arxiv.org/abs/2604.28192
项目主页: https://siriyep.github.io/last-r1/
代码链接:https://github.com/CHEN-H01/LaST-R1
-
2026-05-11 20:29:37 -
2026-05-11 20:28:29 -
2026-05-11 19:27:19