空间推理 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

密室逃脱成AI新考场，通关率不足50%，暴露空间推理短板丨清华ICCV25

密室逃脱成AI新考场，通关率不足50%，暴露空间推理短板丨清华ICCV25 清华大学团队受密室逃脱游戏启发，提出EscapeCraft——一个3D密室逃脱环境，用于评估多模态大模型（MLLMs）在复杂任务中的推理和决策能力。该研究已入选ICCV 2025。 EscapeCraft是一个沉浸式互动环境...

原文链接

心智奇点

07-14 14:19:19

多模态大模型

密室逃脱

空间推理

分享至

打开微信扫一扫

内容投诉

生成图片

太可怕了！AI大模型已学会人类空间思考能力

近日，蚂蚁技术研究院联合中科院自动化所和香港中文大学开源ViLaSR-7B大模型，实现了AI的空间思考能力，在多个空间推理任务中达到新SOTA。该模型通过‘Drawing to Reason in Space’范式，让AI像人类一样‘边画边想’，在迷宫导航、视频空间推理等5个基准测试中平均提升18.4%，尤其在VSI-Bench上达45.4%，超Gemini-1.5-Pro。研究采用三阶段训练框架：冷启动训练建立基础能力，反思拒绝采样增强自我修正，强化学习优化绘图操作效率。ViLaSR-7B展现出类人的空间推理策略，如参考物度量推理和跨帧对象追踪，提升推理可解释性和可控性。此成果为机器人导航等领域奠定基础，预示AI向通用空间智能迈进的重要一步。

原文链接

超频思维站

06-22 22:18:27

Drawing to Reason in Space

空间推理

视觉语言模型

分享至

打开微信扫一扫

内容投诉

生成图片

大模型掌握人类空间思考能力！三阶段训练框架学会“边画边想”，5个基准平均提升18.4%

大模型掌握人类空间思考能力！三阶段训练框架学会“边画边想”，5个基准平均提升18.4% “边看边画，边画边想”，让大模型掌握空间思考能力，实现空间推理任务新SOTA。蚂蚁技术研究院自然语言组联合中科院自动化所和香港中文大学开源ViLaSR-7B。它在迷宫导航、静态图像理解、视频空间推理等5个基准上...

原文链接

数字墨迹

06-21 15:10:12

三阶段训练

大模型

空间推理

分享至

打开微信扫一扫

内容投诉

生成图片

首创像素空间推理，7B模型领先GPT-4o，让VLM能像人类一样「眼脑并用」

标题：首创像素空间推理，7B模型领先GPT-4o，让VLM能像人类一样「眼脑并用」视觉语言模型（VLM）正在从「感知」迈向「认知」的关键阶段。OpenAI的o3系列通过「图像思维」赋予模型标注视觉区域的能力，展现了多模态交互的新潜力。然而，现有VLM大多依赖文本token间接处理视觉信息，难以应对...

原文链接

灵感Phoenix

06-09 18:31:59

VLM

像素空间推理

视觉语言模型

分享至

打开微信扫一扫

内容投诉

生成图片

GPT-4o能拼好乐高吗？首个多步空间推理评测基准：闭源模型领跑

标题：GPT-4o能拼好乐高吗？首个多步空间推理评测基准：闭源模型领跑上海AI Lab投稿 | 量子位公众号 QbitAI GPT-4o会画吉卜力、会「自拍」，但能拼好乐高吗？多模态大语言模型（MLLMs）是否真正具备空间结构的理解与推理能力？现有模型在多步空间推理任务中的表现如何？ ...

原文链接

AI思维矩阵

04-23 11:52:51

LEGO-Puzzles

多模态大模型

空间推理

分享至

打开微信扫一扫

内容投诉

生成图片

50条数据解锁空间智能，RL视觉语言模型3D空间推理框架MetaSpatial ｜西北大学

标题：MetaSpatial：用50条数据提升三维空间推理能力在三维空间理解任务中，让视觉语言模型生成合理布局面临挑战，现有模型虽能识别物体，但缺乏真实空间建模。为解决此问题，西北大学研究人员提出MetaSpatial框架，通过强化学习策略显著提升模型的空间推理能力。 MetaSpatia...

原文链接

跨界思维

03-22 17:26:13

MetaSpatial

三维空间推理

强化学习

分享至

打开微信扫一扫

内容投诉

生成图片

推理模型新路线开源！与DeepSeek截然不同，抛弃思维链不用人类语言思考

标题：推理模型新路线开源！抛弃思维链，不用人类语言思考开源推理大模型新架构来了，采用与DeepSeek-R1/OpenAI o1截然不同的路线：抛弃长思维链和人类语言，直接在连续的高维潜空间用隐藏状态推理，可自适应地花费更多计算来思考更长时间。例如问题：Claire每天早餐都会做一个3个鸡蛋的煎...

原文链接

AI幻想空间站

02-11 15:54:11

循环模块

推理模型

潜空间推理

分享至

打开微信扫一扫

内容投诉

生成图片

李飞飞谢赛宁新作「空间推理」：多模态大模型性能突破关键所在

标题：李飞飞谢赛宁新作「空间推理」：多模态大模型性能突破关键所在量子位发自凹非寺李飞飞与谢赛宁再发新成果，提升多模态大语言模型的空间思维。当前最先进模型在空间认知上仍逊色于人类，约71%错误源于空间推理不足。思维链等常见语言提示技术未能改善模型表现，甚至降低性能。研究提出VSI-Bench基准测试集，涵盖288个真实场景视频及5000多个问答对。结果显示，人类在VSI-Bench上平均准确率达79%，而最佳闭源模型Gemini-1.5 Pro仅48.8%。视频输入对模型性能至关重要，局部空间理解优于全局理解。研究还发现，认知地图能有效提升模型在相对距离任务上的准确率。团队成员包括李飞飞、谢赛宁及四位共同一作：Jihan Yang、Shusheng Yang、Anjali Gupta和Rilyn Han。

原文链接