上海AI实验室造出首个「通才」机器人大脑：看懂世界+空间推理+精准操控全拿下

2025-06-05 16:56:43

量子黑客

发布在

科普

阅读：989

标题：上海AI实验室推出首个「通才」机器人大脑：看懂世界+空间推理+精准操控全搞定

正文：机器人的新大脑框架来了！上海人工智能实验室联合多家机构提出了全新通用具身智能大脑框架——Visual Embodied Brain（简称VeBrain）。该模型通过整合视觉感知、空间推理和机器人控制能力，使机器人能够像人类一样“看到-思考-行动”。

相比现有多模态大模型（MLLM）和视觉-语言-动作（VLA）模型，VeBrain具备多项亮点：统一三类任务的语言建模范式，将机器人控制转化为常规2D空间文本任务；提出“机器人适配器”，包括关键点追踪、动作控制、技能执行及动态接管模块，实现精准映射；构建高质量多能力数据集VeBrain-600k，涵盖60万条指令数据，提升组合推理能力。

测试显示，VeBrain在视觉感知、空间推理和机器人控制能力上均达到最先进水平。其架构通过关键点检测与技能识别重构机器人控制任务，实现感知、推理、控制三大能力的统一建模路径。此外，机器人适配器模块确保MLLM与机器人间的闭环通信，增强动态环境下的稳定性和鲁棒性。

VeBrain-600k数据集包含20万条多模态理解数据、31.2万条空间推理数据及8.8万条机器人控制数据，通过链式思维标注大幅提升任务复杂度。实验表明，VeBrain在多模态理解、空间推理和机器人控制任务中实现了最佳权衡性能，平均提升31.5%，并在多个基准测试中超越当前最强开源模型。

原文链接

本文链接：https://kx.umi6.com/article/19780.html

转载请注明文章出处

VeBrain