标题:上海AI实验室推出首个「通才」机器人大脑:看懂世界+空间推理+精准操控全搞定
正文:机器人的新大脑框架来了!上海人工智能实验室联合多家机构提出了全新通用具身智能大脑框架——Visual Embodied Brain(简称VeBrain)。该模型通过整合视觉感知、空间推理和机器人控制能力,使机器人能够像人类一样“看到-思考-行动”。
相比现有多模态大模型(MLLM)和视觉-语言-动作(VLA)模型,VeBrain具备多项亮点:统一三类任务的语言建模范式,将机器人控制转化为常规2D空间文本任务;提出“机器人适配器”,包括关键点追踪、动作控制、技能执行及动态接管模块,实现精准映射;构建高质量多能力数据集VeBrain-600k,涵盖60万条指令数据,提升组合推理能力。
测试显示,VeBrain在视觉感知、空间推理和机器人控制能力上均达到最先进水平。其架构通过关键点检测与技能识别重构机器人控制任务,实现感知、推理、控制三大能力的统一建模路径。此外,机器人适配器模块确保MLLM与机器人间的闭环通信,增强动态环境下的稳定性和鲁棒性。
VeBrain-600k数据集包含20万条多模态理解数据、31.2万条空间推理数据及8.8万条机器人控制数据,通过链式思维标注大幅提升任务复杂度。实验表明,VeBrain在多模态理解、空间推理和机器人控制任务中实现了最佳权衡性能,平均提升31.5%,并在多个基准测试中超越当前最强开源模型。
原文链接
本文链接:https://kx.umi6.com/article/19780.html
转载请注明文章出处
相关推荐
换一换
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026
2025-12-21 20:00:28
「一脑多形」圆桌:世界模型、空间智能在具身智能出现了哪些具体进展?|GAIR 2025
2026-01-08 12:14:16
中国机器人比赛应急救援,美国网友Reddit破防:我们还在给机器狗化妆拍段子
2025-12-12 16:58:16
人类技能大师首次担任机器人比赛裁判,2025 国际具身智能技能大赛 12 月举行
2025-11-29 20:34:57
三赴CES,睿尔曼以三大底层能力构建全球化具身智能新基建
2026-01-07 15:13:31
北京人形机器人创新中心开源 Pelican-VL 1.0 模型,号称“全球最强”
2025-11-14 08:48:49
京东副总裁郑宇:未来管理智慧城市,会像玩游戏一样简单丨GAIR 2025
2025-12-31 17:33:18
世界上第一款手机机器人荣耀 ROBOT PHONE 真机亮相
2025-12-29 08:07:41
小米具身大模型 MiMo-Embodied 发布并全面开源,业界首个打通自动驾驶与具身智能
2025-11-21 18:38:45
北京人形开源最新VLM模型,推动具身智能再迈关键一步 !
2025-11-14 13:57:27
中国信通院主导!具身智能国际标准迎多项进展 行业评估框架日趋完善
2025-11-17 12:26:12
微分智飞高飞:我们正处于通用飞行智能爆发前夜丨GAIR 2025
2025-12-31 16:37:49
具身开放日点燃生态引擎,智源以开源开放驱动具身智能创新
2025-11-20 18:33:58
628 文章
463397 浏览
24小时热文
更多
-
2026-01-23 21:15:09 -
2026-01-23 21:14:01 -
2026-01-23 20:15:45