标题:具身智能如何重塑计算机视觉?| CVPR 2026
正文:
当机器从识别图像走向介入现实,视觉研究的边界也被重新划定。在CVPR 2026会场,满屏的机械臂抓取、足式机器人导航和物理模拟让人恍惚是否误入了机器人顶会ICRA或IROS。具身智能(Embodied AI)已不再是视觉领域的“边缘分支”,而是以主舞台的姿态成为视觉顶会的核心叙事之一。
这种变化并非偶然,而是机器人学习演进的结果。Ted Xiao将机器人学习分为三大时代:存在性证明时代、基础模型时代和Scaling时代。早期,机器人研究聚焦于“能否动起来”;基础模型时代让机器人学会理解指令与场景;而到了Scaling时代,问题变为“能否在开放世界中规模化学习与行动”。这一阶段,机器人对视觉的需求从“看见物体”升级为“理解世界并转化为行动”。
过去,计算机视觉的任务是从图像中提取语义、理解事件或还原三维结构。如今,具身智能要求视觉系统不仅看懂世界,还要支持智能体进入并改变世界,并通过行动反馈校正理解。这标志着“范式夺权”的本质:重新定义领域的问题入口、评价标准和技术路线。
传统视觉问“这是什么?”“它在哪里?”;具身智能则问“我能对它做什么?”物体不仅是类别标签,更是可抓取、可推动的实体;空间不仅是几何结构,而是可导航、可交互的任务场。评价标准也从“输出是否正确”转向“行动是否有效”。
方法路线随之重写。VLA模型将语言目标与视觉状态转化为动作序列;世界模型预测动作后果;3D空间智能从几何恢复转向空间决策。产业需求也发生变化,机器人要求视觉结果直接进入行动链条,错误成本显著提高。
2017年,李飞飞在IROS上象征着机器人学界对视觉智能的拥抱;如今,具身智能反过来迫使计算机视觉重新定义自身。没有视觉,机器人无法理解开放世界;但没有行动,视觉智能只能停留在描述层面。“看见是感知,理解是表征,行动才是对理解的最终检验。”
具身智能并未取代计算机视觉,而是夺取了其范式解释权,重新定义了视觉智能必须面对的世界。
-
2026-05-12 16:26:04 -
2026-05-12 16:24:54 -
2026-05-12 16:23:48