标题:MetaSpatial:用50条数据提升三维空间推理能力
在三维空间理解任务中,让视觉语言模型生成合理布局面临挑战,现有模型虽能识别物体,但缺乏真实空间建模。为解决此问题,西北大学研究人员提出MetaSpatial框架,通过强化学习策略显著提升模型的空间推理能力。
MetaSpatial首次将基于规则奖励的强化微调策略应用到三维空间布局任务中。它仅需约50条无标注数据,通过构建奖励函数衡量布局合理性,包括物理约束、格式规范及用户偏好。模型通过多轮优化逐步改进布局决策,无需依赖大规模标注数据即可掌握多样化空间推理策略。
实验显示,MetaSpatial在多个指标上优于传统方法。它不仅提升布局连贯性和物理一致性,还增强模型的泛化能力。框架支持多轮布局优化与Group Relative Policy Optimization策略,确保模型稳定高效学习。
MetaSpatial开源发布,包含代码、数据集生成工具及完整数据集,为三维场景生成提供更多可能性。
原文链接
本文链接:https://kx.umi6.com/article/15952.html
转载请注明文章出处
相关推荐
.png)
换一换
Kimi版o1实装上线,这里是我们的一手测试↑
2024-12-16 21:46:45
面壁智能联创谈 DeepSeek 出圈:与 OpenAI o1 不开源有关,R1 模型创造了新的 ChatGPT 时刻
2025-02-06 09:27:16
文生图进入R1时代:港中文发布T2I-R1,让AI绘画“先推理再下笔”
2025-05-14 17:20:57
430 文章
74216 浏览
24小时热文
更多

-
2025-07-19 18:55:37
-
2025-07-19 17:56:25
-
2025-07-19 17:55:01