标题:港科广陈昶昊团队:一张RGB图像让机器读懂室内3D空间丨CVPR 2026
香港科技大学(广州)陈昶昊团队提出了一种名为LegoOcc的新方法,仅用一张普通RGB图像即可预测室内3D空间占用,并支持开放词汇查询。这项研究被CVPR 2026接收为口头报告。
未来家庭机器人和护理机器人需要的不仅是识别物体,而是理解三维空间:哪里可通行、哪里有遮挡、哪些物体可交互。然而,室内环境复杂多变,物体摆放灵活,遮挡关系密集,传统方法依赖昂贵的3D语义标注,难以大规模应用。
LegoOcc的核心创新在于无需3D语义体素标注,仅使用几何占用标签即可实现高质量的单目开放词汇3D占用预测。模型输入为一张RGB图像,输出是每个体素是否被占据以及对应语义类别。实验表明,LegoOcc在Occ-ScanNet数据集上达到59.50 IoU和21.05 mIoU,远超现有开放词汇基线方法。
研究的关键设计包括两点:一是基于泊松分布的高斯到占用转换方法,通过累积多个高斯分布的证据解决二值几何监督问题;二是渐进式温度衰减策略,缓解语义特征混合问题,提升训练稳定性。
LegoOcc还显著提升了推理效率,在RTX 4090显卡上达到每秒22.47帧,优于其他方法。可视化结果显示,模型对墙体、家具等结构的预测更加完整,且能根据自然语言定位背包、鞋子等长尾物体。
尽管LegoOcc的语义平均交并比仍低于使用完整语义监督的闭集方法,但其训练成本大幅降低,为构建大规模三维语义理解系统提供了新方向。该研究推动了室内三维理解从固定类别识别迈向自然语言交互,为家庭机器人、AR/VR等应用奠定了基础。
团队由周常青博士生作为第一作者,陈昶昊助理教授担任通讯作者。陈昶昊博士专注于具身智能与自主无人系统研究,发表论文50余篇,谷歌学术引用超3800次,并多次入选全球顶尖科学家榜单。
论文地址:https://arxiv.org/pdf/2602.22667
参考链接:https://changhao-chen.github.io/
-
2026-05-12 16:26:04 -
2026-05-12 16:24:54 -
2026-05-12 16:23:48