1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:浙江大学研究员彭思达:底层空间感知技术如何助力机器人训练?|GAIR 2025

正文:在“世界模型”分论坛上,浙江大学研究员彭思达发表了《面向具身智能的通用空间感知技术》的主题演讲,分享了其团队在赋予机器人通用感知能力方面的最新进展。彭思达是浙江大学软件学院“百人计划”研究员,专注于三维计算机视觉和计算机图形学研究。

团队主要关注赋予机器人三项基础能力:相机定位(确定自身位置)、深度估计(测量与物体的距离)和物体运动估计(感知环境动态)。这些底层空间感知技术为机器人提供关键决策信息,例如无人机需知道自身位置和目标距离才能避障,并通过了解目标运动实现追踪。此外,这些技术还能生成训练数据,解决当前具身智能领域数据匮乏的问题。彭思达提出,将人类视为特殊形态的机器人,通过记录人类行为获取机器人训练数据,这涉及相机定位、深度估计等技术。

相机定位
传统方法如Colmap通过特征匹配和增量式运动恢复结构(SfM)实现相机定位,但在恶劣环境或视角差异大的情况下效果不佳。2021年,团队提出基于Transformer的LoFTR模型进行图像匹配,解决了弱纹理区域的匹配问题。然而,跨模态匹配(如红外与可见光)仍具挑战。去年团队提出MatchAnything,利用多模态预训练框架和跨模态数据生成,实现了红外、可见光等多种模态的匹配。但MatchAnything难以融入SfM算法,为此团队提出Detector-free SfM,通过粗糙模型重建和迭代优化提升精度。尽管如此,该方法速度较慢,难以满足时间敏感任务。

为解决速度问题,团队开发了端到端方法Scal3R,受人类全局视野启发,通过在线更新网络权重记录场景内容,从而提升大规模场景的相机定位效率。

深度估计
深度估计对机器人决策至关重要,但现有方法常在物体边缘产生“飞点”。团队提出Pixel-Perfect-Depth方法,移除VAE并在像素空间优化,同时整合语言特征增强模型性能。该方法还支持视频深度估计,通过语义特征注入和时序一致性改进提升效果。针对带尺度深度估计问题,团队设计Prompt Depth Anything算法,利用雷达作为提示输入,提升绝对深度预测准确性。为进一步优化,团队提出InfiniDepth,通过次像素深度估计提高模型精细度,适用于复杂场景。

物体运动估计
团队提出SpatialTracker方法,将二维图像反投影至三维空间进行跟踪,克服传统二维跟踪易丢失目标的问题,显著提升鲁棒性。

彭思达的研究为机器人感知能力提供了重要技术支持,推动了具身智能的发展。

原文链接
本文链接:https://kx.umi6.com/article/31320.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
浙江大学研究员彭思达:底层空间感知技术对训练机器人有何作用?|GAIR 2025
2026-01-08 12:15:44
MiniMax发布支持全模态模型的订阅计划 并官宣MaxClaw接入微信
2026-03-23 12:12:58
北航团队为龙虾安全紧急开刀!开源OpenClaw风险防御工具,梳理9大高危风险缓解措施
2026-03-21 14:12:34
国资委:编制好中央企业人工智能产业发展“十五五”规划
2026-03-20 10:20:24
领益智造在郑州成立机器人科技公司
2026-03-23 12:15:10
国家级电力人工智能中试基地迎首批企业 华为、中兴、百度等入驻
2026-03-21 15:21:36
寻找最强具身大脑!全球机器人顶会ICRA开启报名,智元全程陪跑带你拿奖
2026-03-23 16:26:23
别人都在卷视觉,这家具身公司偏要卷“手感”
2026-03-23 14:18:31
阿里明日或将发布重要芯片产品
2026-03-23 12:14:04
中天精装:科睿斯半导体科技公司不从事PCB板业务
2026-03-23 10:04:40
英伟达CEO黄仁勋呼吁科技业领袖避免散布人工智能恐慌情绪
2026-03-20 06:04:17
国家数据局局长刘烈宏:今年3月中国日均Token调用量已突破140万亿 两年增长超千倍
2026-03-23 18:37:57
Qwen3.5-Max预览版首度亮相,阿里千问登顶中国最强模型
2026-03-20 11:19:37
24小时热文
更多
扫一扫体验小程序