标题:寻找 AI 的「第三语言」:中间表示如何打通多模态鸿沟 | CVPR 2026
正文:
“请把杯子拿起来。” 这句话对你来说轻而易举,但对 AI 系统而言却涉及语言、动作、视觉、空间和执行间的多重复杂映射。传统方法通过直接映射让模型从输入生成输出,但在真实场景中往往失效,因为模态间的鸿沟太大。清华大学赵昊团队在 CVPR 2026 发表的四篇论文提出了一种通用解法:引入“中间表示”作为“第三语言”,将复杂问题分解为更简单的步骤。
ORV:动作与视频间的桥梁
机器人学习领域长期面临一个问题:如何通过观看人类操作视频学会新技能?现有的端到端方法因动作和像素空间结构差异过大而表现不佳。ORV(Occupancy-centric Robot Video Generation)提出用 Occupancy 作为中间表示,先将动作转换为 4D Occupancy,再渲染成视频。实验表明,ORV 在生成质量和下游任务成功率上显著优于基线模型,验证了中间表示的价值。
DGGT:无需姿态的动态场景重建
传统的 4D 场景重建依赖精确的相机位姿,但在动态或弱纹理场景中容易出错。DGGT(Dynamic Gaussian Graph Transformer)通过 Gaussian Map 表示场景,并将相机位姿从输入变为输出,实现了无位姿的动态重建。其高效性和跨数据集泛化能力展示了中间表示的强大潜力。
PAM:三级“翻译链”的精巧设计
视频预测任务涉及几何、外观和运动的高度耦合。PAM(Pose-Appearance-Motion)设计了一个三级级联架构,分别处理姿态、外观和运动,逐层分解复杂性。这种方法不仅提升了生成分辨率和质量,还实现了零真实首帧依赖,扩展了应用场景。
UniDex:统一灵巧手的动作语言
灵巧手硬件碎片化限制了机器人策略的通用性。UniDex 提出了 FAAS(Function-Actuator-Aligned Space),用功能语义代替关节角度描述动作,使策略能在不同硬件间无缝迁移。实验结果表明,UniDex 实现了跨硬件的零样本迁移,消除了硬件依赖性。
结语:中间表示的普适性
这四篇论文共同揭示了一个普适原则:当两种模态间鸿沟过大时,找到合适的中间表示比扩大模型规模更有效。无论是 Occupancy、Gaussian Map、三级级联还是 FAAS,它们都证明了中间表示在消除模态鸿沟中的关键作用。下次面对多模态问题时,不妨思考:是否有更好的中间表示可以简化问题?有时候,一个好的中间表示胜过十个更大的模型。
-
2026-05-22 13:44:15 -
2026-05-22 12:48:01 -
2026-05-22 12:46:56