1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

具身大模型R1时刻:LIBERO终结者,99.9%背后的物理推理新范式

机器人拉拉链需要“脑子”吗?过去几年,从OpenVLA到π0、π0.5,具身大模型已能将指令与动作结合得有模有样。但一旦环境稍有变化,如包的位置挪了几厘米或光照变暗,它们往往“宕机”。原因在于,这些模型大多依赖“观察→动作”的直接映射,缺乏对物理逻辑的理解。

现在,一种让机器人“先思考再行动”的新范式来了!由至简动力、北大和港中文联合提出的LaST-R1,首次将隐空间物理推理引入强化学习闭环。作为LaST₀基座模型的后训练范式,LaST₀首创面向机器人的隐空间物理思维链推理,并入选ICML2026 Spotlight(top 2.2%)。

LaST-R1的表现令人惊叹:
- 仿真满分:在LIBERO基准测试中,仅需1条轨迹预热,平均成功率高达99.9%
- 真机性能飞跃:在复杂任务中,比当前最强模型π0.5高出22.5%
- 泛化能力强大:即使更换物体、背景或光照,依然稳定执行,真正实现了“物理思考”。

传统具身大模型常因缺少“思考层”而难以泛化。例如,机器人可能记住100种拉拉链轨迹,但角度偏转或光照变化时便失效。LaST-R1的核心突破是放弃低效的语言推理,转而在隐空间构建物理推理链,让机器人在行动前建模场景结构、物体关系及动态变化。

LaST-R1通过以下三步实现这一目标:
1. 物理隐空间推理:在latent space中建模场景和物理动态,而非直接生成动作;
2. 联合优化推理与动作:提出LAPO算法,让环境反馈同时优化“怎么想”和“怎么动”;
3. 自适应推理机制:根据不同任务动态调整推理长度,简单任务快速执行,复杂任务多加思考。

实验结果表明,LaST-R1在仿真和真实环境中均表现优异:
- 在LIBERO基准测试中,平均成功率99.9%,远超其他模型;
- 真机任务中,仅用30条轨迹预热,成功率从52.5%提升至93.75%,显著优于使用100条专家轨迹的π0.5(71.25%);
- 泛化测试中,在未见过的物体、背景或光照条件下,性能下降极小,展现出强大的鲁棒性。

LaST-R1的意义不仅在于高成功率,更在于提出了一种新的后训练范式:强化学习应同时优化动作和背后的物理推理过程。通过LAPO和自适应推理机制,机器人逐步学会在交互中强化物理推理能力。

论文链接: https://arxiv.org/abs/2604.28192
项目主页: https://siriyep.github.io/last-r1/
代码链接:https://github.com/CHEN-H01/LaST-R1

原文链接
本文链接:https://kx.umi6.com/article/35658.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
机构:半导体材料市场规模有望在2028年突破840亿美元
2026-05-09 16:27:35
梁文锋出资200亿!DeepSeek首轮创纪录融资500亿,V4.1定档6月
2026-05-09 11:07:00
软银拟直接为AI数据中心构建储能系统
2026-05-11 14:11:48
黄仁勋劝应届生不要害怕AI:未来年轻人将有大量机会
2026-05-11 09:59:43
英特尔、AMD、美光科技有望延续涨势并再创新高
2026-05-11 18:25:35
广东省新增6款已完成登记的生成式人工智能服务
2026-05-11 13:09:24
工信部启动人工智能科技伦理审查与服务先导计划 加快推动审查工作落地实施
2026-05-09 16:30:49
东土科技等在湖北成立智能机器人产业发展公司 注册资本3.5亿
2026-05-09 14:20:02
安徽:面向量子科技、生物制造、氢能、脑机接口、具身智能等未来产业领域前瞻部署开展技术可行性验证、工程化开发和测试评估的中试平台
2026-05-09 17:28:11
高管一个月烧20亿Token自称惭愧:每月至少花100块给AI“交水电费”
2026-05-10 19:24:32
别听传言了!英伟达Vera Rubin已经打包 微软谷歌亚马逊等硅谷大厂翘首以盼
2026-05-11 11:02:42
广州:强化智能算力布局
2026-05-11 16:23:37
谷歌「AI联合数学家」来了!刷新最难数学AI基准SOTA,牛津教授用它解开群论悬案
2026-05-09 15:21:48
24小时热文
更多
扫一扫体验小程序