原力灵机提出GeoVLA:让机器人看懂三维世界,打破2D视觉枷锁
在具身智能领域,VLA模型被视为实现通用机器人的关键。然而,现有VLA模型(如OpenVLA、RT-2等)多依赖2D RGB图像输入,导致“空间失明”,难以处理深度感知和空间适应性任务。例如,精准投篮或挂扣环等需要Z轴判断的任务,2D模型往往表现不佳;物体尺寸变化或视角偏移时,也容易失败。
为解决这一问题,Dexmal原力灵机团队提出了全新框架GeoVLA。该框架采用双流架构,结合预训练的视觉-语言模型(VLM)与专用点云嵌入网络(PEN)及3D增强动作专家(3DAE),赋予机器人真正的三维几何感知能力。实验表明,GeoVLA不仅在仿真环境中达到SOTA性能,在真实世界的复杂场景中也展现出卓越的鲁棒性。
核心设计
GeoVLA将任务解耦:VLM负责语义理解,点云网络负责几何感知。其流程包括三个关键组件: 1. 语义理解流:利用预训练VLM处理RGB图像和语言指令,提取视觉-语言特征。 2. 几何感知流:通过PEN处理深度图生成的点云数据,提取高精度3D几何特征。 3. 动作生成流:由3DAE融合两种特征,生成精确动作序列。
点云嵌入网络(PEN)
PEN专为机器人操作设计,采用双路径架构: - 几何特征提取:用轻量级CNN编码点云为几何Token。 - 空间位置编码:引入旋转位置编码(RoPE),保留3D空间相对位置信息。 此外,PEN通过“空间锚点”显式建模手与物体的几何关系,提升操作精度。
3D增强动作专家(3DAE)
3DAE基于扩散Transformer架构,创新性引入混合专家(MoE)机制,采用静态路由策略强制解耦,确保模型独立利用几何信息,避免过度依赖语义分支。
实验结果
GeoVLA在多项测试中表现出色: - LIBERO基准测试:在最具挑战性的LIBERO-90任务中,成功率达97.7%,超越OpenVLA-OFT(95.3%)和CogACT(93.2%)。 - ManiSkill2仿真:平均成功率77%,领先Dita(66%)和CogACT(69%)。 - 真机测试:使用WidowX-250s机械臂,基础任务成功率95.0%,3D感知任务成功率77.5%。 - 分布外场景:在投篮高度变化、套娃尺寸变化、视角偏移等任务中,GeoVLA均展现强大泛化能力。
论文名称:
GeoVLA: Empowering 3D Representation in Vision-Language-Action Models
论文链接:https://arxiv.org/html/2508.09071v2
项目主页:https://linsun449.github.io/GeoVLA/
-
2025-12-25 01:09:12 -
2025-12-24 23:01:58 -
2025-12-24 22:00:59