1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:具身智能如何重塑计算机视觉?| CVPR 2026

正文:
当机器从识别图像走向介入现实,视觉研究的边界也被重新划定。在CVPR 2026会场,满屏的机械臂抓取、足式机器人导航和物理模拟让人恍惚是否误入了机器人顶会ICRA或IROS。具身智能(Embodied AI)已不再是视觉领域的“边缘分支”,而是以主舞台的姿态成为视觉顶会的核心叙事之一。

这种变化并非偶然,而是机器人学习演进的结果。Ted Xiao将机器人学习分为三大时代:存在性证明时代、基础模型时代和Scaling时代。早期,机器人研究聚焦于“能否动起来”;基础模型时代让机器人学会理解指令与场景;而到了Scaling时代,问题变为“能否在开放世界中规模化学习与行动”。这一阶段,机器人对视觉的需求从“看见物体”升级为“理解世界并转化为行动”。

过去,计算机视觉的任务是从图像中提取语义、理解事件或还原三维结构。如今,具身智能要求视觉系统不仅看懂世界,还要支持智能体进入并改变世界,并通过行动反馈校正理解。这标志着“范式夺权”的本质:重新定义领域的问题入口、评价标准和技术路线。

传统视觉问“这是什么?”“它在哪里?”;具身智能则问“我能对它做什么?”物体不仅是类别标签,更是可抓取、可推动的实体;空间不仅是几何结构,而是可导航、可交互的任务场。评价标准也从“输出是否正确”转向“行动是否有效”。

方法路线随之重写。VLA模型将语言目标与视觉状态转化为动作序列;世界模型预测动作后果;3D空间智能从几何恢复转向空间决策。产业需求也发生变化,机器人要求视觉结果直接进入行动链条,错误成本显著提高。

2017年,李飞飞在IROS上象征着机器人学界对视觉智能的拥抱;如今,具身智能反过来迫使计算机视觉重新定义自身。没有视觉,机器人无法理解开放世界;但没有行动,视觉智能只能停留在描述层面。“看见是感知,理解是表征,行动才是对理解的最终检验。”

具身智能并未取代计算机视觉,而是夺取了其范式解释权,重新定义了视觉智能必须面对的世界。

原文链接
本文链接:https://kx.umi6.com/article/35735.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
韩正出席2026世界数字教育大会开幕式并致辞
2026-05-11 19:26:12
摩根士丹利:数据中心电力缺口达55GW 中东资本因地缘冲突面临不确定性
2026-05-11 19:27:19
软银拟直接为AI数据中心构建储能系统
2026-05-11 14:11:48
何恺明团队论文全景扫描:一场关于「生成范式」的多角度突破 | CVPR 2026
2026-05-12 15:17:35
欧盟委员会对OpenAI开放新型ChatGPT模型访问权限表示欢迎
2026-05-11 20:28:29
MiniMax关联公司增资至40亿 增幅300%
2026-05-11 11:05:57
做AI漫剧的、搞Agent的、投硅谷的,5.20这些赛道顶流碰头了|最新嘉宾阵容
2026-05-11 19:23:57
龙虾退烧后,荣耀给它造了一个宇宙
2026-05-12 16:18:32
OpenAI推出网络安全模型Daybreak
2026-05-12 11:13:49
DeepSeek回应聊天记录搜索:正在灰度测试 并非全量推送
2026-05-12 15:16:09
腾讯跟投阶跃25亿美金融资 双方已达成战略合作
2026-05-11 16:21:26
硅谷刷屏的AI护城河新论:代码能抄,产品能抄,但有一样东西,谁都抄不走
2026-05-11 17:18:20
受兵源不足困扰 韩国军方探索在战场引入现代汽车的机器人
2026-05-11 15:15:09
24小时热文
更多
扫一扫体验小程序