大模型掌握人类空间思考能力!三阶段训练框架学会“边画边想”,5个基准平均提升18.4%
“边看边画,边画边想”,让大模型掌握空间思考能力,实现空间推理任务新SOTA。
蚂蚁技术研究院自然语言组联合中科院自动化所和香港中文大学开源ViLaSR-7B。它在迷宫导航、静态图像理解、视频空间推理等5个基准上平均提升18.4%,在VSI-Bench上达45.4%,全面超越现有方法。模型展现了类似人类的空间推理策略和反思能力,迈向视觉智能的重要一步。
团队设计三阶段训练框架:冷启动训练建立基础视觉操作能力;反思拒绝采样筛选高质量推理路径;强化学习优化任务目标。
视觉推理从“视觉转文本”转向“Thinking with Images”。传统范式易丢关键信息,“Thinking with Images”通过图像操作增强推理能力。ViLaSR-7B通过“Drawing to Reason in Space”范式,让模型“边画边想”,显著提升推理效率与可解释性。
实验显示,ViLaSR-7B在多个基准上表现优异,尤其在VSI-Bench上领先Qwen2.5-VL-7B 12.7%。消融实验验证了各阶段的重要性,强化学习优化绘图操作效率,模型具备类人空间推理策略。
原文链接
本文链接:https://kx.umi6.com/article/20587.html
转载请注明文章出处
相关推荐
.png)
换一换
航空发动机用上大模型:解决复杂时序问题,性能超越ChatGPT-4o实现SOTA|上交创智复旦
2025-06-28 13:23:44
2025大模型半年回顾:模型速度变缓
2025-06-25 19:34:48
从黑箱到显微镜:大模型可解释性的现状与未来
2025-06-17 18:41:56
1万tokens是检验长文本的新基准,超过后18款大模型集体失智
2025-07-17 15:23:24
推理成本骤降75%!gpt-oss用新数据类型实现4倍推理速度,80GB显卡能跑1200亿参数大模型
2025-08-11 16:04:21
大厂「AI」智能体,等待 DeepSeek 时刻
2025-07-31 11:05:08
31亿!我国大模型应用个人用户注册“爆表” 竟超全国人口规模2倍多
2025-07-31 12:06:11
大模型再「战」高考:从一本直升 985
2025-06-27 09:05:45
大模型参与推理崩溃论战!从「思维错觉」到「错觉的错觉」再到「错觉的错觉的错觉」
2025-06-20 18:02:43
大模型套壳往事
2025-07-14 18:26:03
GPT-5 没有惊喜,但信号拉满
2025-08-11 13:00:45
三家混战,大模型重回2023
2025-08-03 11:35:50
密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25
2025-07-14 14:19:19
494 文章
189272 浏览
24小时热文
更多

-
2025-09-10 01:24:36
-
2025-09-10 00:24:21
-
2025-09-09 23:22:46