标题:浙江大学研究员彭思达:底层空间感知技术如何助力机器人训练?|GAIR 2025
正文:在“世界模型”分论坛上,浙江大学研究员彭思达发表了《面向具身智能的通用空间感知技术》的主题演讲,分享了其团队在赋予机器人通用感知能力方面的最新进展。彭思达是浙江大学软件学院“百人计划”研究员,专注于三维计算机视觉和计算机图形学研究。
团队主要关注赋予机器人三项基础能力:相机定位(确定自身位置)、深度估计(测量与物体的距离)和物体运动估计(感知环境动态)。这些底层空间感知技术为机器人提供关键决策信息,例如无人机需知道自身位置和目标距离才能避障,并通过了解目标运动实现追踪。此外,这些技术还能生成训练数据,解决当前具身智能领域数据匮乏的问题。彭思达提出,将人类视为特殊形态的机器人,通过记录人类行为获取机器人训练数据,这涉及相机定位、深度估计等技术。
相机定位
传统方法如Colmap通过特征匹配和增量式运动恢复结构(SfM)实现相机定位,但在恶劣环境或视角差异大的情况下效果不佳。2021年,团队提出基于Transformer的LoFTR模型进行图像匹配,解决了弱纹理区域的匹配问题。然而,跨模态匹配(如红外与可见光)仍具挑战。去年团队提出MatchAnything,利用多模态预训练框架和跨模态数据生成,实现了红外、可见光等多种模态的匹配。但MatchAnything难以融入SfM算法,为此团队提出Detector-free SfM,通过粗糙模型重建和迭代优化提升精度。尽管如此,该方法速度较慢,难以满足时间敏感任务。
为解决速度问题,团队开发了端到端方法Scal3R,受人类全局视野启发,通过在线更新网络权重记录场景内容,从而提升大规模场景的相机定位效率。
深度估计
深度估计对机器人决策至关重要,但现有方法常在物体边缘产生“飞点”。团队提出Pixel-Perfect-Depth方法,移除VAE并在像素空间优化,同时整合语言特征增强模型性能。该方法还支持视频深度估计,通过语义特征注入和时序一致性改进提升效果。针对带尺度深度估计问题,团队设计Prompt Depth Anything算法,利用雷达作为提示输入,提升绝对深度预测准确性。为进一步优化,团队提出InfiniDepth,通过次像素深度估计提高模型精细度,适用于复杂场景。
物体运动估计
团队提出SpatialTracker方法,将二维图像反投影至三维空间进行跟踪,克服传统二维跟踪易丢失目标的问题,显著提升鲁棒性。
彭思达的研究为机器人感知能力提供了重要技术支持,推动了具身智能的发展。
-
2026-01-09 11:11:43 -
2026-01-09 11:09:38 -
2026-01-09 11:08:29