1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:机器人感知大升级!轻量化注入几何先验,成功率提升31%

在机器人学习领域,AI如何“看懂”三维世界一直是个难题。当前的视觉语言动作(VLA)模型多基于2D图像-文本数据训练,缺乏对3D空间的理解能力。虽然通过深度传感器或估计网络可以增强性能,但存在部署难度和精度问题。

为此,上海交通大学和剑桥大学提出了一种轻量化方法Evo-0,通过隐式注入3D几何先验,无需额外传感器或显式深度输入。该方法利用视觉几何基础模型VGGT,从多视角RGB图像中提取3D结构信息,并融合到视觉语言模型中,显著提升了空间感知能力。实验表明,Evo-0在5个精细操作任务上的平均成功率比基线模型pi0高出15%,比openvla-oft高出31%。

Evo-0的核心是引入VGGT作为空间编码器,提取包含深度上下文和跨视图关系的3D token,并通过cross-attention模块实现2D与3D表征的融合。这一设计增强了模型对空间结构和物体布局的理解能力。此外,研究团队仅微调融合模块和部分网络层,大幅降低了计算成本。

在真实世界实验中,Evo-0完成了目标居中放置、插孔、密集抓取等高精度任务,平均成功率较pi0提升28.88%,尤其在复杂空间操作中表现优异。在鲁棒性测试中,面对干扰物、背景变化、目标位移等5类干扰条件,Evo-0均展现出更强的适应性。

值得注意的是,Evo-0仅需15k步训练即可超越pi0的20k步效果,证明了其高效性。这种方法绕过了深度估计误差和硬件依赖,为通用机器人策略提供了灵活高效的解决方案。

论文链接:https://arxiv.org/abs/2507.00416

原文链接
本文链接:https://kx.umi6.com/article/26064.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
机器人感知大升级!轻量化注入几何先验,成功率提升31%
2025-09-29 15:10:53
商汤Seko上线一个月,超10万创作者选择它
2025-09-29 10:05:46
中国造不出AI芯片?黄仁勋:仅落后美国“几纳秒”
2025-09-29 14:10:00
OpenAI ChatGPT 会自动切换严格模型处理情感话题,用户却不知情
2025-09-29 11:07:26
美国加州里程碑式 AI 透明度法案生效:前沿 AI 企业需公开安全框架并保障举报人权益
2025-09-30 08:25:02
宇树机器人被曝漏洞,机器人之间可相互感染,官方火速回应
2025-09-30 13:26:38
忍无可忍,无须再忍:马斯克第六次起诉OpenAI
2025-09-29 15:13:15
智策领航完成天使+轮战略融资,徐汇资本领投
2025-09-29 13:09:21
福特 CEO 法利警告:美国 AI 发展面临劳动力短缺危机
2025-09-30 13:28:57
国家发改委:从供需两端发力 推动智能终端和智能体市场扩容
2025-09-29 16:13:01
DeepSeek-V3.2-Exp 模型正式发布并开源,API 大幅降价
2025-09-29 19:14:08
瀛通通讯等成立新公司 含AI及智能机器人研发等业务
2025-09-29 14:09:00
OpenAI 被曝将推出“AI 版 TikTok”,所有短视频均为 AI 生成,基于 Sora 2
2025-09-30 08:23:51
24小时热文
更多
扫一扫体验小程序