1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

近日,蚂蚁技术研究院联合中科院自动化所和香港中文大学开源ViLaSR-7B大模型,实现了AI的空间思考能力,在多个空间推理任务中达到新SOTA。该模型通过‘Drawing to Reason in Space’范式,让AI像人类一样‘边画边想’,在迷宫导航、视频空间推理等5个基准测试中平均提升18.4%,尤其在VSI-Bench上达45.4%,超Gemini-1.5-Pro。研究采用三阶段训练框架:冷启动训练建立基础能力,反思拒绝采样增强自我修正,强化学习优化绘图操作效率。ViLaSR-7B展现出类人的空间推理策略,如参考物度量推理和跨帧对象追踪,提升推理可解释性和可控性。此成果为机器人导航等领域奠定基础,预示AI向通用空间智能迈进的重要一步。

原文链接
本文链接:https://kx.umi6.com/article/20619.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
太可怕了!AI大模型已学会人类空间思考能力
2025-06-22 22:18:27
首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」
2025-06-09 18:31:59
Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M
2025-01-26 21:16:45
李飞飞谢赛宁新作「空间推理」:多模态大模型性能突破关键所在
2024-12-23 12:52:12
密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25
2025-07-14 14:19:19
谷歌 DeepMind 发布 WebLI-100B:千亿级数据集解锁 AI 视觉语言模型的文化多样性
2025-02-14 15:43:06
大模型掌握人类空间思考能力!三阶段训练框架学会“边画边想”,5个基准平均提升18.4%
2025-06-21 15:10:12
只需将感知推理能力拆分,2B大模型就能战胜20B,国产新框架高效处理视觉任务
2024-07-03 04:26:59
北大清华等联合发布 LLaVA-o1:首个自发性视觉 AI 模型,推理计算 Scaling 新思路
2024-11-19 11:41:37
Hugging Face 最小 AI 视觉语言模型登场:2.56 亿参数,内存低于 1GB PC 也能驾驭
2025-01-24 11:41:33
刚刚,小红书开源了首个多模态大模型dots.vlm1,性能直追SOTA!
2025-08-08 16:14:57
无需参数访问!CMU用大模型自动优化视觉语言提示词 | CVPR’24
2024-11-07 10:13:00
AI们数不清六根手指,这事没那么简单
2025-07-11 11:37:35
24小时热文
更多
扫一扫体验小程序