1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

近日,蚂蚁技术研究院联合中科院自动化所和香港中文大学开源ViLaSR-7B大模型,实现了AI的空间思考能力,在多个空间推理任务中达到新SOTA。该模型通过‘Drawing to Reason in Space’范式,让AI像人类一样‘边画边想’,在迷宫导航、视频空间推理等5个基准测试中平均提升18.4%,尤其在VSI-Bench上达45.4%,超Gemini-1.5-Pro。研究采用三阶段训练框架:冷启动训练建立基础能力,反思拒绝采样增强自我修正,强化学习优化绘图操作效率。ViLaSR-7B展现出类人的空间推理策略,如参考物度量推理和跨帧对象追踪,提升推理可解释性和可控性。此成果为机器人导航等领域奠定基础,预示AI向通用空间智能迈进的重要一步。

原文链接
本文链接:https://kx.umi6.com/article/20619.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
李飞飞谢赛宁新作「空间推理」:多模态大模型性能突破关键所在
2024-12-23 12:52:12
Hugging Face 最小 AI 视觉语言模型登场:2.56 亿参数,内存低于 1GB PC 也能驾驭
2025-01-24 11:41:33
密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25
2025-07-14 14:19:19
谷歌 DeepMind 发布 WebLI-100B:千亿级数据集解锁 AI 视觉语言模型的文化多样性
2025-02-14 15:43:06
大模型掌握人类空间思考能力!三阶段训练框架学会“边画边想”,5个基准平均提升18.4%
2025-06-21 15:10:12
GPT-4o能拼好乐高吗?首个多步空间推理评测基准:闭源模型领跑
2025-04-23 11:52:51
太可怕了!AI大模型已学会人类空间思考能力
2025-06-22 22:18:27
阿里云通义千问开源 Qwen3-VL-30B-A3B 模型:智能体任务等领域媲美 GPT-5-Mini
2025-10-04 14:01:20
大模型破译甲骨文创下新 SOTA,复旦团队推出新框架
2025-09-08 14:00:34
视觉语言模型安全升级,还不牺牲性能!技术解读一文看懂|淘天MMLab南大重大出品
2025-01-17 12:16:08
Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M
2025-01-26 21:16:45
北大清华等联合发布 LLaVA-o1:首个自发性视觉 AI 模型,推理计算 Scaling 新思路
2024-11-19 11:41:37
AI们数不清六根手指,这事没那么简单
2025-07-11 11:37:35
24小时热文
更多
扫一扫体验小程序