CVPR 2026 视频模型趋势梳理：不止生成下一帧，更要理解下一步

2026-05-16 22:01:15

E-Poet

发布在

科普

阅读：667

标题：CVPR 2026 视频模型趋势：从生成到理解动态世界

视频智能正从画面生成迈向运动控制、动态建模和信号理解。过去，视频生成主要关注“像不像”，如人物清晰度、画面流畅性和风格统一性。然而，随着技术发展，研究者发现视频不仅是连续帧的播放，而是一个由时间、空间、运动、光照和物理规律构成的复杂系统。如果模型无法理解这些隐含结构，生成的视频可能在运动逻辑或场景适应上出现问题。因此，视频智能正进入新阶段：从生成画面转向理解画面变化的原因。

今年 CVPR 的一个显著趋势是，视频模型的竞争重心从视觉质量转向对时间、空间和物理规律的建模能力。这意味着未来的视频 AI 不仅要生成更长、更清晰的内容，还要理解运动来源、结构稳定性及复杂场景中的变化预测。

从改画面到改运动

谷歌与石溪大学提出的《MotionV2V》研究了如何编辑视频中的“运动”。用户可通过修改稀疏轨迹点来改变物体方向、镜头运动等，而系统则基于原始轨迹和目标轨迹生成新视频。相比现有方法，MotionV2V 能更好地保留原视频内容并支持多次编辑。类似地，Adobe 和马里兰大学的《Generative Video Motion Editing with 3D Point Tracks》通过 3D 点轨迹进一步提升了运动编辑的深度感知能力，可同时调整相机和物体运动。

让模型学会「怎么动」

上海交通大学等机构的《AdapTok》提出了一种自适应视频 tokenization 方法，根据视频内容动态分配 token，从而提升生成效率。而苹果与 LMU 的《Learning Long-term Motion Embeddings》则探索了紧凑的运动表示，将“生成视频”简化为“生成运动”，更适合长期动态建模和机器人规划。