1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

大模型掌握人类空间思考能力!三阶段训练框架学会“边画边想”,5个基准平均提升18.4%

“边看边画,边画边想”,让大模型掌握空间思考能力,实现空间推理任务新SOTA。

蚂蚁技术研究院自然语言组联合中科院自动化所和香港中文大学开源ViLaSR-7B。它在迷宫导航、静态图像理解、视频空间推理等5个基准上平均提升18.4%,在VSI-Bench上达45.4%,全面超越现有方法。模型展现了类似人类的空间推理策略和反思能力,迈向视觉智能的重要一步。

团队设计三阶段训练框架:冷启动训练建立基础视觉操作能力;反思拒绝采样筛选高质量推理路径;强化学习优化任务目标。

视觉推理从“视觉转文本”转向“Thinking with Images”。传统范式易丢关键信息,“Thinking with Images”通过图像操作增强推理能力。ViLaSR-7B通过“Drawing to Reason in Space”范式,让模型“边画边想”,显著提升推理效率与可解释性。

实验显示,ViLaSR-7B在多个基准上表现优异,尤其在VSI-Bench上领先Qwen2.5-VL-7B 12.7%。消融实验验证了各阶段的重要性,强化学习优化绘图操作效率,模型具备类人空间推理策略。

原文链接
本文链接:https://kx.umi6.com/article/20587.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
智谱、MiniMax争夺「大模型第一股」
2025-12-24 10:30:23
全球首份大模型业绩报!MiniMax预判2026三大超级PMF,AI平台公司启程了
2026-03-03 11:54:49
几乎都在挂羊头卖狗肉!AI Agent泡沫实在太大了
2025-10-20 11:04:42
消息称腾讯大模型团队架构调整:前 OpenAI 研究员姚顺雨任要职,校招最高 2 倍薪资挖 AI 人才
2025-12-17 17:57:42
用DeepSeek改造ERP,到底难在哪?怎么破?
2025-10-11 09:33:30
智谱中标679.8万元水电大模型项目
2025-11-05 20:23:03
雷军宣布:小米AI人才招聘专项正式启动!
2026-03-30 16:59:23
大模型即OS,AI云即计算机:阿里的全栈赌注
2025-09-25 10:00:29
智谱与市城投集团合作发布杭州城投人工智能产业大模型项目(一期)建设成果
2025-09-15 20:01:43
腾讯发布全新大模型混元3D 3.0
2025-09-16 10:11:57
不整虚的!中美AI同步加速:47天30次更新,中国AI的最强主场究竟在哪?
2026-02-22 18:50:22
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这
2025-12-11 15:57:49
汪军对话 Rich Sutton:大模型在一定程度上分散了我们对智能理解的注意力
2025-09-28 11:53:51
24小时热文
更多
扫一扫体验小程序