原力灵机提出GeoVLA：让机器人看懂三维世界，打破2D视觉枷锁

2025-12-24 22:00:59

智慧轨迹

发布在

科普

阅读：79

原力灵机提出GeoVLA：让机器人看懂三维世界，打破2D视觉枷锁

在具身智能领域，VLA模型被视为实现通用机器人的关键。然而，现有VLA模型（如OpenVLA、RT-2等）多依赖2D RGB图像输入，导致“空间失明”，难以处理深度感知和空间适应性任务。例如，精准投篮或挂扣环等需要Z轴判断的任务，2D模型往往表现不佳；物体尺寸变化或视角偏移时，也容易失败。

为解决这一问题，Dexmal原力灵机团队提出了全新框架GeoVLA。该框架采用双流架构，结合预训练的视觉-语言模型（VLM）与专用点云嵌入网络（PEN）及3D增强动作专家（3DAE），赋予机器人真正的三维几何感知能力。实验表明，GeoVLA不仅在仿真环境中达到SOTA性能，在真实世界的复杂场景中也展现出卓越的鲁棒性。

核心设计

GeoVLA将任务解耦：VLM负责语义理解，点云网络负责几何感知。其流程包括三个关键组件： 1. 语义理解流：利用预训练VLM处理RGB图像和语言指令，提取视觉-语言特征。 2. 几何感知流：通过PEN处理深度图生成的点云数据，提取高精度3D几何特征。 3. 动作生成流：由3DAE融合两种特征，生成精确动作序列。

点云嵌入网络（PEN）

PEN专为机器人操作设计，采用双路径架构： - 几何特征提取：用轻量级CNN编码点云为几何Token。 - 空间位置编码：引入旋转位置编码（RoPE），保留3D空间相对位置信息。此外，PEN通过“空间锚点”显式建模手与物体的几何关系，提升操作精度。

3D增强动作专家（3DAE）

3DAE基于扩散Transformer架构，创新性引入混合专家（MoE）机制，采用静态路由策略强制解耦，确保模型独立利用几何信息，避免过度依赖语义分支。

实验结果

GeoVLA在多项测试中表现出色： - LIBERO基准测试：在最具挑战性的LIBERO-90任务中，成功率达97.7%，超越OpenVLA-OFT（95.3%）和CogACT（93.2%）。 - ManiSkill2仿真：平均成功率77%，领先Dita（66%）和CogACT（69%）。 - 真机测试：使用WidowX-250s机械臂，基础任务成功率95.0%，3D感知任务成功率77.5%。 - 分布外场景：在投篮高度变化、套娃尺寸变化、视角偏移等任务中，GeoVLA均展现强大泛化能力。

论文名称：
GeoVLA: Empowering 3D Representation in Vision-Language-Action Models
论文链接：https://arxiv.org/html/2508.09071v2
项目主页：https://linsun449.github.io/GeoVLA/

原文链接

本文链接：https://kx.umi6.com/article/30729.html

转载请注明文章出处

GeoVLA