1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

原力灵机提出GeoVLA:让机器人看懂三维世界,打破2D视觉枷锁

在具身智能领域,VLA模型被视为实现通用机器人的关键。然而,现有VLA模型(如OpenVLA、RT-2等)多依赖2D RGB图像输入,导致“空间失明”,难以处理深度感知和空间适应性任务。例如,精准投篮或挂扣环等需要Z轴判断的任务,2D模型往往表现不佳;物体尺寸变化或视角偏移时,也容易失败。

为解决这一问题,Dexmal原力灵机团队提出了全新框架GeoVLA。该框架采用双流架构,结合预训练的视觉-语言模型(VLM)与专用点云嵌入网络(PEN)及3D增强动作专家(3DAE),赋予机器人真正的三维几何感知能力。实验表明,GeoVLA不仅在仿真环境中达到SOTA性能,在真实世界的复杂场景中也展现出卓越的鲁棒性。

核心设计

GeoVLA将任务解耦:VLM负责语义理解,点云网络负责几何感知。其流程包括三个关键组件: 1. 语义理解流:利用预训练VLM处理RGB图像和语言指令,提取视觉-语言特征。 2. 几何感知流:通过PEN处理深度图生成的点云数据,提取高精度3D几何特征。 3. 动作生成流:由3DAE融合两种特征,生成精确动作序列。

点云嵌入网络(PEN)

PEN专为机器人操作设计,采用双路径架构: - 几何特征提取:用轻量级CNN编码点云为几何Token。 - 空间位置编码:引入旋转位置编码(RoPE),保留3D空间相对位置信息。 此外,PEN通过“空间锚点”显式建模手与物体的几何关系,提升操作精度。

3D增强动作专家(3DAE)

3DAE基于扩散Transformer架构,创新性引入混合专家(MoE)机制,采用静态路由策略强制解耦,确保模型独立利用几何信息,避免过度依赖语义分支。

实验结果

GeoVLA在多项测试中表现出色: - LIBERO基准测试:在最具挑战性的LIBERO-90任务中,成功率达97.7%,超越OpenVLA-OFT(95.3%)和CogACT(93.2%)。 - ManiSkill2仿真:平均成功率77%,领先Dita(66%)和CogACT(69%)。 - 真机测试:使用WidowX-250s机械臂,基础任务成功率95.0%,3D感知任务成功率77.5%。 - 分布外场景:在投篮高度变化、套娃尺寸变化、视角偏移等任务中,GeoVLA均展现强大泛化能力。

论文名称:
GeoVLA: Empowering 3D Representation in Vision-Language-Action Models
论文链接:https://arxiv.org/html/2508.09071v2
项目主页:https://linsun449.github.io/GeoVLA/

原文链接
本文链接:https://kx.umi6.com/article/30729.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
中国足球还是靠机器人吧!首届机器人运动会闭幕:票价终究保守了
2025-08-18 17:47:51
吉利资本领投,具身智能公司星动纪元获近 10 亿元 A+ 轮融资
2025-11-20 10:13:43
具身智能,没在元年落地
2025-12-11 08:36:16
具身智能机器人落地前,还有这些难关要过
2025-06-02 14:39:15
宁德时代,投了一位90后教授
2025-06-23 09:21:16
机器人入职洗衣房,开始打工挣钱!苹果前AI高管打造
2025-09-14 18:43:37
3年亏了8亿,酒店送餐机器人其实是在送钱?
2025-06-01 14:21:36
机器人非得「像人」吗?人类最需要看清自己
2025-06-01 14:20:28
何小鹏:期望在 2026 年量产机器人,相信未来 5-10 年将走入更多家庭
2025-11-03 14:23:00
直击IROS现场:宇树禾赛自变量杭州论剑,美团C位攒局
2025-10-27 16:04:39
谷歌重塑物理 AI 智能体:赋予机器人“大脑和身体”,让其学会“先思考,后行动”
2025-09-26 16:32:23
机器人成八月最强主线?多场盛会密集召开 又一波“上新潮”临近
2025-08-05 10:12:31
黄仁勋亲自“带货”,英伟达预告本周五将推机器人新品
2025-11-27 16:47:06
24小时热文
更多
扫一扫体验小程序