具身大模型R1时刻：LIBERO终结者，99.9%背后的物理推理新范式

2026-05-11 11:00:34

电子诗篇

发布在

科普

阅读：244

具身大模型R1时刻：LIBERO终结者，99.9%背后的物理推理新范式

机器人拉拉链需要“脑子”吗？过去几年，从OpenVLA到π0、π0.5，具身大模型已能将指令与动作结合得有模有样。但一旦环境稍有变化，如包的位置挪了几厘米或光照变暗，它们往往“宕机”。原因在于，这些模型大多依赖“观察→动作”的直接映射，缺乏对物理逻辑的理解。

现在，一种让机器人“先思考再行动”的新范式来了！由至简动力、北大和港中文联合提出的LaST-R1，首次将隐空间物理推理引入强化学习闭环。作为LaST₀基座模型的后训练范式，LaST₀首创面向机器人的隐空间物理思维链推理，并入选ICML2026 Spotlight（top 2.2%）。

LaST-R1的表现令人惊叹：
- 仿真满分：在LIBERO基准测试中，仅需1条轨迹预热，平均成功率高达99.9%；
- 真机性能飞跃：在复杂任务中，比当前最强模型π0.5高出22.5%；
- 泛化能力强大：即使更换物体、背景或光照，依然稳定执行，真正实现了“物理思考”。

传统具身大模型常因缺少“思考层”而难以泛化。例如，机器人可能记住100种拉拉链轨迹，但角度偏转或光照变化时便失效。LaST-R1的核心突破是放弃低效的语言推理，转而在隐空间构建物理推理链，让机器人在行动前建模场景结构、物体关系及动态变化。

LaST-R1通过以下三步实现这一目标：
1. 物理隐空间推理：在latent space中建模场景和物理动态，而非直接生成动作；
2. 联合优化推理与动作：提出LAPO算法，让环境反馈同时优化“怎么想”和“怎么动”；
3. 自适应推理机制：根据不同任务动态调整推理长度，简单任务快速执行，复杂任务多加思考。

实验结果表明，LaST-R1在仿真和真实环境中均表现优异：
- 在LIBERO基准测试中，平均成功率99.9%，远超其他模型；
- 真机任务中，仅用30条轨迹预热，成功率从52.5%提升至93.75%，显著优于使用100条专家轨迹的π0.5（71.25%）；
- 泛化测试中，在未见过的物体、背景或光照条件下，性能下降极小，展现出强大的鲁棒性。

LaST-R1的意义不仅在于高成功率，更在于提出了一种新的后训练范式：强化学习应同时优化动作和背后的物理推理过程。通过LAPO和自适应推理机制，机器人逐步学会在交互中强化物理推理能力。

论文链接: https://arxiv.org/abs/2604.28192
项目主页: https://siriyep.github.io/last-r1/
代码链接：https://github.com/CHEN-H01/LaST-R1

原文链接

本文链接：https://kx.umi6.com/article/35658.html

转载请注明文章出处

LaST-R1