大模型掌握人类空间思考能力!三阶段训练框架学会“边画边想”,5个基准平均提升18.4%
“边看边画,边画边想”,让大模型掌握空间思考能力,实现空间推理任务新SOTA。
蚂蚁技术研究院自然语言组联合中科院自动化所和香港中文大学开源ViLaSR-7B。它在迷宫导航、静态图像理解、视频空间推理等5个基准上平均提升18.4%,在VSI-Bench上达45.4%,全面超越现有方法。模型展现了类似人类的空间推理策略和反思能力,迈向视觉智能的重要一步。
团队设计三阶段训练框架:冷启动训练建立基础视觉操作能力;反思拒绝采样筛选高质量推理路径;强化学习优化任务目标。
视觉推理从“视觉转文本”转向“Thinking with Images”。传统范式易丢关键信息,“Thinking with Images”通过图像操作增强推理能力。ViLaSR-7B通过“Drawing to Reason in Space”范式,让模型“边画边想”,显著提升推理效率与可解释性。
实验显示,ViLaSR-7B在多个基准上表现优异,尤其在VSI-Bench上领先Qwen2.5-VL-7B 12.7%。消融实验验证了各阶段的重要性,强化学习优化绘图操作效率,模型具备类人空间推理策略。
原文链接
本文链接:https://kx.umi6.com/article/20587.html
转载请注明文章出处
相关推荐
换一换
智谱中标679.8万元水电大模型项目
2025-11-05 20:23:03
腾讯升级大模型研发架构 前OpenAI顶尖研究员出任首席AI科学家
2025-12-17 18:59:08
大模型驱动算力革命 AI芯片迎破局新机遇
2025-09-18 07:47:51
中国AI云,开始「抢座次」了
2025-11-20 11:17:00
大模型产生幻觉 全怪人类PUA吗
2025-09-12 01:04:40
啊?微博7800美元训的大模型,数学能力超了DeepSeek-R1
2025-11-18 14:20:39
李开复任命三位新高管:零一万物的“一把手工程”与大模型中场战事
2025-10-27 13:00:52
卖酒的茅台要学AI了!和奔驰麦当劳一起拜师百度
2025-08-17 12:35:45
GPT-5 没有惊喜,但信号拉满
2025-08-11 13:00:45
GPT-5能让普通人变成博士,但魔法依旧没有
2025-08-08 12:10:14
长三角一体化大模型发布 AI将为区域发展提供决策支撑
2026-01-12 09:40:07
大模型又迎来重要玩家!美团首个开源大模型来了
2025-09-01 18:28:28
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026
2025-12-21 10:35:20
640 文章
429275 浏览
24小时热文
更多
-
2026-01-23 00:20:44 -
2026-01-22 23:18:34 -
2026-01-22 23:17:29