1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:寻找 AI 的「第三语言」:中间表示如何打通多模态鸿沟 | CVPR 2026

正文:
“请把杯子拿起来。” 这句话对你来说轻而易举,但对 AI 系统而言却涉及语言、动作、视觉、空间和执行间的多重复杂映射。传统方法通过直接映射让模型从输入生成输出,但在真实场景中往往失效,因为模态间的鸿沟太大。清华大学赵昊团队在 CVPR 2026 发表的四篇论文提出了一种通用解法:引入“中间表示”作为“第三语言”,将复杂问题分解为更简单的步骤。

ORV:动作与视频间的桥梁
机器人学习领域长期面临一个问题:如何通过观看人类操作视频学会新技能?现有的端到端方法因动作和像素空间结构差异过大而表现不佳。ORV(Occupancy-centric Robot Video Generation)提出用 Occupancy 作为中间表示,先将动作转换为 4D Occupancy,再渲染成视频。实验表明,ORV 在生成质量和下游任务成功率上显著优于基线模型,验证了中间表示的价值。

DGGT:无需姿态的动态场景重建
传统的 4D 场景重建依赖精确的相机位姿,但在动态或弱纹理场景中容易出错。DGGT(Dynamic Gaussian Graph Transformer)通过 Gaussian Map 表示场景,并将相机位姿从输入变为输出,实现了无位姿的动态重建。其高效性和跨数据集泛化能力展示了中间表示的强大潜力。

PAM:三级“翻译链”的精巧设计
视频预测任务涉及几何、外观和运动的高度耦合。PAM(Pose-Appearance-Motion)设计了一个三级级联架构,分别处理姿态、外观和运动,逐层分解复杂性。这种方法不仅提升了生成分辨率和质量,还实现了零真实首帧依赖,扩展了应用场景。

UniDex:统一灵巧手的动作语言
灵巧手硬件碎片化限制了机器人策略的通用性。UniDex 提出了 FAAS(Function-Actuator-Aligned Space),用功能语义代替关节角度描述动作,使策略能在不同硬件间无缝迁移。实验结果表明,UniDex 实现了跨硬件的零样本迁移,消除了硬件依赖性。

结语:中间表示的普适性
这四篇论文共同揭示了一个普适原则:当两种模态间鸿沟过大时,找到合适的中间表示比扩大模型规模更有效。无论是 Occupancy、Gaussian Map、三级级联还是 FAAS,它们都证明了中间表示在消除模态鸿沟中的关键作用。下次面对多模态问题时,不妨思考:是否有更好的中间表示可以简化问题?有时候,一个好的中间表示胜过十个更大的模型。

原文链接
本文链接:https://kx.umi6.com/article/36106.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
LIama 4发布重夺开源第一!DeepSeek同等代码能力但参数减一半,一张H100就能跑,还有两万亿参数超大杯
2025-04-06 10:54:42
豆包大模型1.6正式发布
2025-06-11 11:12:11
240元打造擅长数学的多模态版R1,基于DeepSeek核心思想,两阶段训练提升推理能力至工业级应用标准
2025-03-20 16:36:06
百度发布文心大模型 4.5 Turbo / X1 Turbo:主打多模态、强推理、低成本
2025-04-25 11:06:03
阿里视频模型 HappyHorse 开启灰测,悟空已率先接入
2026-04-28 17:26:42
Llama模仿Diffusion多模态涨分30%!只需共享注意力分布
2025-02-17 12:48:00
商汤坐上大模型核心牌桌
2025-05-09 11:48:13
字节 Seed 开源统一多模态理解和生成模型 BAGEL
2025-06-03 19:01:17
中国AI凭什么逆袭美国?
2025-06-26 13:58:23
业界突破多模态泛化推理能力,OPPO研究院&港科广提出OThink-MR1技术
2025-03-30 11:28:03
一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!
2025-04-25 18:17:24
摸DeepSeek过河也得自身硬! 想开后的文小言,真香!
2025-03-31 17:40:22
DeepSeek识图模式是个新模型?!一手实测在此(没错我被灰度到了)
2026-04-30 15:28:30
24小时热文
更多
扫一扫体验小程序