1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:浙江大学研究员彭思达:底层空间感知技术如何助力机器人训练?|GAIR 2025

正文:在“世界模型”分论坛上,浙江大学研究员彭思达发表了《面向具身智能的通用空间感知技术》的主题演讲,分享了其团队在赋予机器人通用感知能力方面的最新进展。彭思达是浙江大学软件学院“百人计划”研究员,专注于三维计算机视觉和计算机图形学研究。

团队主要关注赋予机器人三项基础能力:相机定位(确定自身位置)、深度估计(测量与物体的距离)和物体运动估计(感知环境动态)。这些底层空间感知技术为机器人提供关键决策信息,例如无人机需知道自身位置和目标距离才能避障,并通过了解目标运动实现追踪。此外,这些技术还能生成训练数据,解决当前具身智能领域数据匮乏的问题。彭思达提出,将人类视为特殊形态的机器人,通过记录人类行为获取机器人训练数据,这涉及相机定位、深度估计等技术。

相机定位
传统方法如Colmap通过特征匹配和增量式运动恢复结构(SfM)实现相机定位,但在恶劣环境或视角差异大的情况下效果不佳。2021年,团队提出基于Transformer的LoFTR模型进行图像匹配,解决了弱纹理区域的匹配问题。然而,跨模态匹配(如红外与可见光)仍具挑战。去年团队提出MatchAnything,利用多模态预训练框架和跨模态数据生成,实现了红外、可见光等多种模态的匹配。但MatchAnything难以融入SfM算法,为此团队提出Detector-free SfM,通过粗糙模型重建和迭代优化提升精度。尽管如此,该方法速度较慢,难以满足时间敏感任务。

为解决速度问题,团队开发了端到端方法Scal3R,受人类全局视野启发,通过在线更新网络权重记录场景内容,从而提升大规模场景的相机定位效率。

深度估计
深度估计对机器人决策至关重要,但现有方法常在物体边缘产生“飞点”。团队提出Pixel-Perfect-Depth方法,移除VAE并在像素空间优化,同时整合语言特征增强模型性能。该方法还支持视频深度估计,通过语义特征注入和时序一致性改进提升效果。针对带尺度深度估计问题,团队设计Prompt Depth Anything算法,利用雷达作为提示输入,提升绝对深度预测准确性。为进一步优化,团队提出InfiniDepth,通过次像素深度估计提高模型精细度,适用于复杂场景。

物体运动估计
团队提出SpatialTracker方法,将二维图像反投影至三维空间进行跟踪,克服传统二维跟踪易丢失目标的问题,显著提升鲁棒性。

彭思达的研究为机器人感知能力提供了重要技术支持,推动了具身智能的发展。

原文链接
本文链接:https://kx.umi6.com/article/31320.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
浙江大学研究员彭思达:底层空间感知技术对训练机器人有何作用?|GAIR 2025
2026-01-08 12:15:44
训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享
2026-01-08 21:31:59
戴尔高管:过度营销AI适得其反 消费者其实并不买账
2026-01-08 12:11:56
车企跨界造「人」
2026-01-08 20:34:52
合肥“十五五”规划建议:加快巨型星座组网建设 布局可回收复用液体火箭、差异化小火箭等整机产品和卫星服务网络
2026-01-08 11:07:44
卡特彼勒与英伟达扩大合作
2026-01-08 08:01:03
中源裕泽完成近亿元天使轮融资,凯联资本领投
2026-01-07 20:34:51
多平台公布涉“AI魔改”违规视频处置结果
2026-01-08 23:40:43
开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!
2026-01-08 19:25:43
微信开展为期一个月的“AI 魔改”视频专项治理行动,已处置违规内容 1078 条
2026-01-08 22:34:44
南方科技大学张进教授:为什么打造空间智能,不能只依赖“传统多模态感知”?|GAIR 2025
2026-01-08 18:24:36
广州:加速培育人工智能、半导体与集成电路、新能源与新型储能、低空经济与航空航天、生物制造等5个战略先导产业
2026-01-08 17:24:07
马斯克证实 xAI 又买了 5 台燃气轮机,为超级计算机集群供电
2026-01-07 22:33:31
24小时热文
更多
扫一扫体验小程序