1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:港科广陈昶昊团队:一张RGB图像让机器读懂室内3D空间丨CVPR 2026

香港科技大学(广州)陈昶昊团队提出了一种名为LegoOcc的新方法,仅用一张普通RGB图像即可预测室内3D空间占用,并支持开放词汇查询。这项研究被CVPR 2026接收为口头报告。

未来家庭机器人和护理机器人需要的不仅是识别物体,而是理解三维空间:哪里可通行、哪里有遮挡、哪些物体可交互。然而,室内环境复杂多变,物体摆放灵活,遮挡关系密集,传统方法依赖昂贵的3D语义标注,难以大规模应用。

LegoOcc的核心创新在于无需3D语义体素标注,仅使用几何占用标签即可实现高质量的单目开放词汇3D占用预测。模型输入为一张RGB图像,输出是每个体素是否被占据以及对应语义类别。实验表明,LegoOcc在Occ-ScanNet数据集上达到59.50 IoU和21.05 mIoU,远超现有开放词汇基线方法。

研究的关键设计包括两点:一是基于泊松分布的高斯到占用转换方法,通过累积多个高斯分布的证据解决二值几何监督问题;二是渐进式温度衰减策略,缓解语义特征混合问题,提升训练稳定性。

LegoOcc还显著提升了推理效率,在RTX 4090显卡上达到每秒22.47帧,优于其他方法。可视化结果显示,模型对墙体、家具等结构的预测更加完整,且能根据自然语言定位背包、鞋子等长尾物体。

尽管LegoOcc的语义平均交并比仍低于使用完整语义监督的闭集方法,但其训练成本大幅降低,为构建大规模三维语义理解系统提供了新方向。该研究推动了室内三维理解从固定类别识别迈向自然语言交互,为家庭机器人、AR/VR等应用奠定了基础。

团队由周常青博士生作为第一作者,陈昶昊助理教授担任通讯作者。陈昶昊博士专注于具身智能与自主无人系统研究,发表论文50余篇,谷歌学术引用超3800次,并多次入选全球顶尖科学家榜单。

论文地址:https://arxiv.org/pdf/2602.22667
参考链接:https://changhao-chen.github.io/

原文链接
本文链接:https://kx.umi6.com/article/35734.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
55.8%增速!2026全球IT支出冲向45万亿人民币:AI已成最贵打工仔
2026-05-10 20:27:44
广州:重点支持AI技术在智能无人系统、具身智能、细胞与基因、前沿新材料等领域的应用与融合发展
2026-05-11 16:25:50
中金:AI现在仍未到典型的“泡沫”阶段
2026-05-11 09:00:15
中信证券:上市制度或进一步优化 港股IPO有望保持火热
2026-05-11 08:57:58
摩尔线程与光轮智能达成战略合作 将联合打造高置信度仿真数据合成方案
2026-05-11 19:25:02
广州:支持研发推出AI眼镜、智能手表等具有潜力的爆款智能硬件产品
2026-05-11 16:26:55
河南首个虚拟电厂AI核心平台上线
2026-05-11 07:55:45
何恺明团队论文全景扫描:一场关于「生成范式」的多角度突破 | CVPR 2026
2026-05-12 15:17:35
通用汽车大换血!裁掉约600名IT员工 只为给AI人才腾位置
2026-05-12 11:03:53
马斯克诉OpenAI案新进展:微软CEO纳德拉称马斯克从未向其质疑微软投资
2026-05-12 12:09:18
居民被要求别浇草坪:AI数据中心却偷偷抽走数万吨水!官方竟拒绝罚款
2026-05-11 00:37:35
DeepSeek回应聊天记录搜索:正在灰度测试 并非全量推送
2026-05-12 15:16:09
快手涨近10% 旗下可灵AI视频业务分拆并计划明年实现IPO上市
2026-05-12 11:06:05
24小时热文
更多
扫一扫体验小程序