1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

大模型掌握人类空间思考能力!三阶段训练框架学会“边画边想”,5个基准平均提升18.4%

“边看边画,边画边想”,让大模型掌握空间思考能力,实现空间推理任务新SOTA。

蚂蚁技术研究院自然语言组联合中科院自动化所和香港中文大学开源ViLaSR-7B。它在迷宫导航、静态图像理解、视频空间推理等5个基准上平均提升18.4%,在VSI-Bench上达45.4%,全面超越现有方法。模型展现了类似人类的空间推理策略和反思能力,迈向视觉智能的重要一步。

团队设计三阶段训练框架:冷启动训练建立基础视觉操作能力;反思拒绝采样筛选高质量推理路径;强化学习优化任务目标。

视觉推理从“视觉转文本”转向“Thinking with Images”。传统范式易丢关键信息,“Thinking with Images”通过图像操作增强推理能力。ViLaSR-7B通过“Drawing to Reason in Space”范式,让模型“边画边想”,显著提升推理效率与可解释性。

实验显示,ViLaSR-7B在多个基准上表现优异,尤其在VSI-Bench上领先Qwen2.5-VL-7B 12.7%。消融实验验证了各阶段的重要性,强化学习优化绘图操作效率,模型具备类人空间推理策略。

原文链接
本文链接:https://kx.umi6.com/article/20587.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
字节跳动、阿里AI“大将”出走
2025-08-25 22:35:04
在上海WAIC,800展商无一不想成为黄仁勋
2025-07-27 07:50:27
如何避免成为AI墓地的一员?
2025-07-23 13:50:51
大模型激战正酣!大厂节前、节中进展不停 争夺下一代操作系统主导权
2025-10-05 18:23:27
DeepSeek新大招曝光:下一步智能体
2025-09-05 10:15:28
中国信通院开展面向大模型的全栈国产软硬件系统适配测试工作
2025-07-23 16:55:22
卖酒的茅台要学AI了!和奔驰麦当劳一起拜师百度
2025-08-17 12:35:45
OpenAI的命门,决定了大模型公司的未来
2025-09-03 14:48:12
华人AI大神霸气离职,一篇博客挑明中美大模型暗战
2025-10-11 10:14:30
Scaling Law再遭质疑:“退化式AI”竟成终局?
2025-08-04 21:03:25
中信建投武超则:大模型的迭代永无止境 坚定看好接下来AI应用的发展表现
2025-07-16 18:10:08
蚂蚁密算开源高阶程序HOP框架
2025-07-27 16:06:47
把12个AI凑到一起打工,它们竟然搞起“小团体”?
2025-10-16 22:02:39
24小时热文
更多
扫一扫体验小程序