港科广陈昶昊团队：只用一张 RGB 图像，让机器读懂室内 3D 空间丨CVPR 2026

2026-05-12 16:22:26

像素宇宙

发布在

科普

阅读：155

标题：港科广陈昶昊团队：一张RGB图像让机器读懂室内3D空间丨CVPR 2026

香港科技大学（广州）陈昶昊团队提出了一种名为LegoOcc的新方法，仅用一张普通RGB图像即可预测室内3D空间占用，并支持开放词汇查询。这项研究被CVPR 2026接收为口头报告。

未来家庭机器人和护理机器人需要的不仅是识别物体，而是理解三维空间：哪里可通行、哪里有遮挡、哪些物体可交互。然而，室内环境复杂多变，物体摆放灵活，遮挡关系密集，传统方法依赖昂贵的3D语义标注，难以大规模应用。

LegoOcc的核心创新在于无需3D语义体素标注，仅使用几何占用标签即可实现高质量的单目开放词汇3D占用预测。模型输入为一张RGB图像，输出是每个体素是否被占据以及对应语义类别。实验表明，LegoOcc在Occ-ScanNet数据集上达到59.50 IoU和21.05 mIoU，远超现有开放词汇基线方法。

研究的关键设计包括两点：一是基于泊松分布的高斯到占用转换方法，通过累积多个高斯分布的证据解决二值几何监督问题；二是渐进式温度衰减策略，缓解语义特征混合问题，提升训练稳定性。

LegoOcc还显著提升了推理效率，在RTX 4090显卡上达到每秒22.47帧，优于其他方法。可视化结果显示，模型对墙体、家具等结构的预测更加完整，且能根据自然语言定位背包、鞋子等长尾物体。

尽管LegoOcc的语义平均交并比仍低于使用完整语义监督的闭集方法，但其训练成本大幅降低，为构建大规模三维语义理解系统提供了新方向。该研究推动了室内三维理解从固定类别识别迈向自然语言交互，为家庭机器人、AR/VR等应用奠定了基础。

团队由周常青博士生作为第一作者，陈昶昊助理教授担任通讯作者。陈昶昊博士专注于具身智能与自主无人系统研究，发表论文50余篇，谷歌学术引用超3800次，并多次入选全球顶尖科学家榜单。

论文地址：https://arxiv.org/pdf/2602.22667
参考链接：https://changhao-chen.github.io/

原文链接

本文链接：https://kx.umi6.com/article/35734.html

转载请注明文章出处

3D占用预测

LegoOcc

开放词汇

分享至

打开微信扫一扫

内容投诉

生成图片

像素宇宙

701 文章

581321 浏览

24小时热文

花旗将阿里巴巴列为中国AI投资首选股 H股目标价204港元

2026-05-12 16:26:04
工业和信息化部：APEC框架下开创汽车产业发展新局面

2026-05-12 16:24:54
从「座上宾」到「主战场」：具身智能如何完成对计算机视觉的「范式夺权」？| CVPR 2026

2026-05-12 16:23:48