50条数据解锁空间智能，RL视觉语言模型3D空间推理框架MetaSpatial ｜西北大学

2025-03-22 17:26:13

跨界思维

发布在

科普

阅读：904

标题：MetaSpatial：用50条数据提升三维空间推理能力

在三维空间理解任务中，让视觉语言模型生成合理布局面临挑战，现有模型虽能识别物体，但缺乏真实空间建模。为解决此问题，西北大学研究人员提出MetaSpatial框架，通过强化学习策略显著提升模型的空间推理能力。

MetaSpatial首次将基于规则奖励的强化微调策略应用到三维空间布局任务中。它仅需约50条无标注数据，通过构建奖励函数衡量布局合理性，包括物理约束、格式规范及用户偏好。模型通过多轮优化逐步改进布局决策，无需依赖大规模标注数据即可掌握多样化空间推理策略。

实验显示，MetaSpatial在多个指标上优于传统方法。它不仅提升布局连贯性和物理一致性，还增强模型的泛化能力。框架支持多轮布局优化与Group Relative Policy Optimization策略，确保模型稳定高效学习。

MetaSpatial开源发布，包含代码、数据集生成工具及完整数据集，为三维场景生成提供更多可能性。

原文链接

本文链接：https://kx.umi6.com/article/15952.html

转载请注明文章出处

MetaSpatial

三维空间推理

强化学习

分享至

打开微信扫一扫

内容投诉

生成图片

跨界思维

664 文章

498177 浏览

24小时热文