机器人感知大升级！轻量化注入几何先验，成功率提升31%

2025-09-29 15:10:53

量子思考者

发布在

科普

阅读：252

标题：机器人感知大升级！轻量化注入几何先验，成功率提升31%

在机器人学习领域，AI如何“看懂”三维世界一直是个难题。当前的视觉语言动作（VLA）模型多基于2D图像-文本数据训练，缺乏对3D空间的理解能力。虽然通过深度传感器或估计网络可以增强性能，但存在部署难度和精度问题。

为此，上海交通大学和剑桥大学提出了一种轻量化方法Evo-0，通过隐式注入3D几何先验，无需额外传感器或显式深度输入。该方法利用视觉几何基础模型VGGT，从多视角RGB图像中提取3D结构信息，并融合到视觉语言模型中，显著提升了空间感知能力。实验表明，Evo-0在5个精细操作任务上的平均成功率比基线模型pi0高出15%，比openvla-oft高出31%。

Evo-0的核心是引入VGGT作为空间编码器，提取包含深度上下文和跨视图关系的3D token，并通过cross-attention模块实现2D与3D表征的融合。这一设计增强了模型对空间结构和物体布局的理解能力。此外，研究团队仅微调融合模块和部分网络层，大幅降低了计算成本。

在真实世界实验中，Evo-0完成了目标居中放置、插孔、密集抓取等高精度任务，平均成功率较pi0提升28.88%，尤其在复杂空间操作中表现优异。在鲁棒性测试中，面对干扰物、背景变化、目标位移等5类干扰条件，Evo-0均展现出更强的适应性。

值得注意的是，Evo-0仅需15k步训练即可超越pi0的20k步效果，证明了其高效性。这种方法绕过了深度估计误差和硬件依赖，为通用机器人策略提供了灵活高效的解决方案。

论文链接：https://arxiv.org/abs/2507.00416

原文链接

本文链接：https://kx.umi6.com/article/26064.html

转载请注明文章出处

Evo-0