综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
标题:对话原力灵机周而进:2.4B模型够用,具身原生是关键
正文:
一个专注于具身智能的公司推出了仅2.4B参数的模型DM0,远低于行业标杆如π 0(33亿参数)和π 0.6(50亿参数)。这家公司认为,2.4B足够支撑实时处理三视角728×728画面,推理延迟仅60毫秒,并通过强化学习在真机上...
原文链接
2026年2月10日,阿里达摩院开源了RynnBrain具身大脑基础模型,包含2B到30B参数的7个版本。这是业界首个拥有时空记忆的具身智能模型,能理解物理空间并记住物体位置和轨迹,性能超越英伟达Cosmos-reason2和谷歌Gemini Robotics等顶尖模型,在20项基准测试中拿下16个SOTA。RynnBrain-30B-A3B仅需3B激活参数,性能却超越72B规模的Pelican-VL,显著降低硬件成本与响应时间。模型基于Qwen3-VL训练,采用自研RynnScale架构优化训练速度,并使用超2000万对高质量语料,包括‘自我为中心’的OCR数据,增强物理世界理解能力。此外,达摩院还开源了完整代码及评测基准RynnBrain-Bench,为行业提供统一基础设施,降低研发、系统与协作门槛,推动具身智能生态发展。
原文链接
正文:11月26日,阿里千问的视觉理解模型Qwen3-VL和Qwen2.5-VL在空间推理基准测试SpatialBench榜单中位列前两名,超越Gemini 3、GPT-5.1等国际顶尖模型。SpatialBench是一项衡量多模态模型在空间、结构、路径等方面综合推理能力的新兴标准,对具身智能落地至关重要。Qwen3-VL和Qwen2.5-VL分别获得13.5分和12.9分,远超Gemini 3.0 Pro Preview(9.6分)和GPT-5.1(7.5分)。尽管AI整体表现仍不及人类基准线(约80分),但Qwen3-VL在视觉感知和多模态推理方面取得突破,可实现‘带图推理’和‘视觉编程’,并增强3D检测能力,助力机器人精准抓取物体。Qwen3-VL已开源多个版本,并上线千问APP供用户免费体验。
原文链接
密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25
清华大学团队受密室逃脱游戏启发,提出EscapeCraft——一个3D密室逃脱环境,用于评估多模态大模型(MLLMs)在复杂任务中的推理和决策能力。该研究已入选ICCV 2025。
EscapeCraft是一个沉浸式互动环境...
原文链接
近日,蚂蚁技术研究院联合中科院自动化所和香港中文大学开源ViLaSR-7B大模型,实现了AI的空间思考能力,在多个空间推理任务中达到新SOTA。该模型通过‘Drawing to Reason in Space’范式,让AI像人类一样‘边画边想’,在迷宫导航、视频空间推理等5个基准测试中平均提升18.4%,尤其在VSI-Bench上达45.4%,超Gemini-1.5-Pro。研究采用三阶段训练框架:冷启动训练建立基础能力,反思拒绝采样增强自我修正,强化学习优化绘图操作效率。ViLaSR-7B展现出类人的空间推理策略,如参考物度量推理和跨帧对象追踪,提升推理可解释性和可控性。此成果为机器人导航等领域奠定基础,预示AI向通用空间智能迈进的重要一步。
原文链接
大模型掌握人类空间思考能力!三阶段训练框架学会“边画边想”,5个基准平均提升18.4%
“边看边画,边画边想”,让大模型掌握空间思考能力,实现空间推理任务新SOTA。
蚂蚁技术研究院自然语言组联合中科院自动化所和香港中文大学开源ViLaSR-7B。它在迷宫导航、静态图像理解、视频空间推理等5个基准上...
原文链接
标题:首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」
视觉语言模型(VLM)正在从「感知」迈向「认知」的关键阶段。OpenAI的o3系列通过「图像思维」赋予模型标注视觉区域的能力,展现了多模态交互的新潜力。然而,现有VLM大多依赖文本token间接处理视觉信息,难以应对...
原文链接
标题:GPT-4o能拼好乐高吗?首个多步空间推理评测基准:闭源模型领跑
上海AI Lab投稿 | 量子位公众号 QbitAI
GPT-4o会画吉卜力、会「自拍」,但能拼好乐高吗?多模态大语言模型(MLLMs)是否真正具备空间结构的理解与推理能力?现有模型在多步空间推理任务中的表现如何?
...
原文链接
标题:MetaSpatial:用50条数据提升三维空间推理能力
在三维空间理解任务中,让视觉语言模型生成合理布局面临挑战,现有模型虽能识别物体,但缺乏真实空间建模。为解决此问题,西北大学研究人员提出MetaSpatial框架,通过强化学习策略显著提升模型的空间推理能力。
MetaSpatia...
原文链接
标题:推理模型新路线开源!抛弃思维链,不用人类语言思考
开源推理大模型新架构来了,采用与DeepSeek-R1/OpenAI o1截然不同的路线:抛弃长思维链和人类语言,直接在连续的高维潜空间用隐藏状态推理,可自适应地花费更多计算来思考更长时间。
例如问题:Claire每天早餐都会做一个3个鸡蛋的煎...
原文链接
加载更多
暂无内容