标题:CVPR 2026 视频模型趋势:从生成到理解动态世界
视频智能正从画面生成迈向运动控制、动态建模和信号理解。过去,视频生成主要关注“像不像”,如人物清晰度、画面流畅性和风格统一性。然而,随着技术发展,研究者发现视频不仅是连续帧的播放,而是一个由时间、空间、运动、光照和物理规律构成的复杂系统。如果模型无法理解这些隐含结构,生成的视频可能在运动逻辑或场景适应上出现问题。因此,视频智能正进入新阶段:从生成画面转向理解画面变化的原因。
今年 CVPR 的一个显著趋势是,视频模型的竞争重心从视觉质量转向对时间、空间和物理规律的建模能力。这意味着未来的视频 AI 不仅要生成更长、更清晰的内容,还要理解运动来源、结构稳定性及复杂场景中的变化预测。
从改画面到改运动
谷歌与石溪大学提出的《MotionV2V》研究了如何编辑视频中的“运动”。用户可通过修改稀疏轨迹点来改变物体方向、镜头运动等,而系统则基于原始轨迹和目标轨迹生成新视频。相比现有方法,MotionV2V 能更好地保留原视频内容并支持多次编辑。类似地,Adobe 和马里兰大学的《Generative Video Motion Editing with 3D Point Tracks》通过 3D 点轨迹进一步提升了运动编辑的深度感知能力,可同时调整相机和物体运动。
让模型学会「怎么动」
上海交通大学等机构的《AdapTok》提出了一种自适应视频 tokenization 方法,根据视频内容动态分配 token,从而提升生成效率。而苹果与 LMU 的《Learning Long-term Motion Embeddings》则探索了紧凑的运动表示,将“生成视频”简化为“生成运动”,更适合长期动态建模和机器人规划。
从修复画面到理解信号来源
南开大学等机构的《Flickerformer》解决了短曝光连拍图像中的闪烁问题,利用频闪的周期性和方向性设计网络模块,有效去除了条纹状退化。CMU 的《Dual Band Video Thermography》则分离了热成像中的发射和反射信号,帮助区分温度变化与背景干扰。
让视觉模型进入真实世界任务
艾伦人工智能研究所等机构的《Helios》提出了面向地球观测的多模态基础模型 OlmoEarth,结合图像、时间序列和地图标注,为环保和公共利益任务提供稳定高效的解决方案。
视频模型正从单纯的生成工具,逐步演变为能够理解、编辑和推演现实世界的动态智能系统。这一趋势标志着 AI 在复杂场景中应用的重要一步。
-
2026-05-17 14:40:19 -
2026-05-17 13:43:05 -
2026-05-17 13:41:58