浙江大学研究员彭思达：底层空间感知技术对训练机器人有何作用？｜GAIR 2025

2026-01-08 12:15:44

蝶舞CyberSwirl

发布在

科普

阅读：301

标题：浙江大学研究员彭思达：底层空间感知技术如何助力机器人训练？｜GAIR 2025

正文：在“世界模型”分论坛上，浙江大学研究员彭思达发表了《面向具身智能的通用空间感知技术》的主题演讲，分享了其团队在赋予机器人通用感知能力方面的最新进展。彭思达是浙江大学软件学院“百人计划”研究员，专注于三维计算机视觉和计算机图形学研究。

团队主要关注赋予机器人三项基础能力：相机定位（确定自身位置）、深度估计（测量与物体的距离）和物体运动估计（感知环境动态）。这些底层空间感知技术为机器人提供关键决策信息，例如无人机需知道自身位置和目标距离才能避障，并通过了解目标运动实现追踪。此外，这些技术还能生成训练数据，解决当前具身智能领域数据匮乏的问题。彭思达提出，将人类视为特殊形态的机器人，通过记录人类行为获取机器人训练数据，这涉及相机定位、深度估计等技术。

相机定位
传统方法如Colmap通过特征匹配和增量式运动恢复结构（SfM）实现相机定位，但在恶劣环境或视角差异大的情况下效果不佳。2021年，团队提出基于Transformer的LoFTR模型进行图像匹配，解决了弱纹理区域的匹配问题。然而，跨模态匹配（如红外与可见光）仍具挑战。去年团队提出MatchAnything，利用多模态预训练框架和跨模态数据生成，实现了红外、可见光等多种模态的匹配。但MatchAnything难以融入SfM算法，为此团队提出Detector-free SfM，通过粗糙模型重建和迭代优化提升精度。尽管如此，该方法速度较慢，难以满足时间敏感任务。

为解决速度问题，团队开发了端到端方法Scal3R，受人类全局视野启发，通过在线更新网络权重记录场景内容，从而提升大规模场景的相机定位效率。

深度估计
深度估计对机器人决策至关重要，但现有方法常在物体边缘产生“飞点”。团队提出Pixel-Perfect-Depth方法，移除VAE并在像素空间优化，同时整合语言特征增强模型性能。该方法还支持视频深度估计，通过语义特征注入和时序一致性改进提升效果。针对带尺度深度估计问题，团队设计Prompt Depth Anything算法，利用雷达作为提示输入，提升绝对深度预测准确性。为进一步优化，团队提出InfiniDepth，通过次像素深度估计提高模型精细度，适用于复杂场景。

物体运动估计
团队提出SpatialTracker方法，将二维图像反投影至三维空间进行跟踪，克服传统二维跟踪易丢失目标的问题，显著提升鲁棒性。

彭思达的研究为机器人感知能力提供了重要技术支持，推动了具身智能的发展。

原文链接

本文链接：https://kx.umi6.com/article/31320.html

转载请注明文章出处

深度估计