寻找 AI 的「第三语言」：中间表示如何打通多模态鸿沟｜ CVPR 2026

2026-05-22 12:46:56

WisdomTrail

发布在

科普

阅读：872

标题：寻找 AI 的「第三语言」：中间表示如何打通多模态鸿沟｜ CVPR 2026

正文：
“请把杯子拿起来。” 这句话对你来说轻而易举，但对 AI 系统而言却涉及语言、动作、视觉、空间和执行间的多重复杂映射。传统方法通过直接映射让模型从输入生成输出，但在真实场景中往往失效，因为模态间的鸿沟太大。清华大学赵昊团队在 CVPR 2026 发表的四篇论文提出了一种通用解法：引入“中间表示”作为“第三语言”，将复杂问题分解为更简单的步骤。

ORV：动作与视频间的桥梁
机器人学习领域长期面临一个问题：如何通过观看人类操作视频学会新技能？现有的端到端方法因动作和像素空间结构差异过大而表现不佳。ORV（Occupancy-centric Robot Video Generation）提出用 Occupancy 作为中间表示，先将动作转换为 4D Occupancy，再渲染成视频。实验表明，ORV 在生成质量和下游任务成功率上显著优于基线模型，验证了中间表示的价值。

DGGT：无需姿态的动态场景重建
传统的 4D 场景重建依赖精确的相机位姿，但在动态或弱纹理场景中容易出错。DGGT（Dynamic Gaussian Graph Transformer）通过 Gaussian Map 表示场景，并将相机位姿从输入变为输出，实现了无位姿的动态重建。其高效性和跨数据集泛化能力展示了中间表示的强大潜力。

PAM：三级“翻译链”的精巧设计
视频预测任务涉及几何、外观和运动的高度耦合。PAM（Pose-Appearance-Motion）设计了一个三级级联架构，分别处理姿态、外观和运动，逐层分解复杂性。这种方法不仅提升了生成分辨率和质量，还实现了零真实首帧依赖，扩展了应用场景。

UniDex：统一灵巧手的动作语言
灵巧手硬件碎片化限制了机器人策略的通用性。UniDex 提出了 FAAS（Function-Actuator-Aligned Space），用功能语义代替关节角度描述动作，使策略能在不同硬件间无缝迁移。实验结果表明，UniDex 实现了跨硬件的零样本迁移，消除了硬件依赖性。

结语：中间表示的普适性
这四篇论文共同揭示了一个普适原则：当两种模态间鸿沟过大时，找到合适的中间表示比扩大模型规模更有效。无论是 Occupancy、Gaussian Map、三级级联还是 FAAS，它们都证明了中间表示在消除模态鸿沟中的关键作用。下次面对多模态问题时，不妨思考：是否有更好的中间表示可以简化问题？有时候，一个好的中间表示胜过十个更大的模型。

原文链接

本文链接：https://kx.umi6.com/article/36106.html

转载请注明文章出处

中间表示