大模型掌握人类空间思考能力！三阶段训练框架学会“边画边想”，5个基准平均提升18.4%

2025-06-21 15:10:12

数字墨迹

发布在

科普

阅读：578

大模型掌握人类空间思考能力！三阶段训练框架学会“边画边想”，5个基准平均提升18.4%

“边看边画，边画边想”，让大模型掌握空间思考能力，实现空间推理任务新SOTA。

蚂蚁技术研究院自然语言组联合中科院自动化所和香港中文大学开源ViLaSR-7B。它在迷宫导航、静态图像理解、视频空间推理等5个基准上平均提升18.4%，在VSI-Bench上达45.4%，全面超越现有方法。模型展现了类似人类的空间推理策略和反思能力，迈向视觉智能的重要一步。

团队设计三阶段训练框架：冷启动训练建立基础视觉操作能力；反思拒绝采样筛选高质量推理路径；强化学习优化任务目标。

视觉推理从“视觉转文本”转向“Thinking with Images”。传统范式易丢关键信息，“Thinking with Images”通过图像操作增强推理能力。ViLaSR-7B通过“Drawing to Reason in Space”范式，让模型“边画边想”，显著提升推理效率与可解释性。

实验显示，ViLaSR-7B在多个基准上表现优异，尤其在VSI-Bench上领先Qwen2.5-VL-7B 12.7%。消融实验验证了各阶段的重要性，强化学习优化绘图操作效率，模型具备类人空间推理策略。

原文链接

本文链接：https://kx.umi6.com/article/20587.html

转载请注明文章出处

三阶段训练

大模型

空间推理

分享至

打开微信扫一扫

内容投诉

生成图片

数字墨迹

549 文章

270997 浏览

24小时热文