1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:CVPR 2026 视频模型趋势:从生成到理解动态世界

视频智能正从画面生成迈向运动控制、动态建模和信号理解。过去,视频生成主要关注“像不像”,如人物清晰度、画面流畅性和风格统一性。然而,随着技术发展,研究者发现视频不仅是连续帧的播放,而是一个由时间、空间、运动、光照和物理规律构成的复杂系统。如果模型无法理解这些隐含结构,生成的视频可能在运动逻辑或场景适应上出现问题。因此,视频智能正进入新阶段:从生成画面转向理解画面变化的原因。

今年 CVPR 的一个显著趋势是,视频模型的竞争重心从视觉质量转向对时间、空间和物理规律的建模能力。这意味着未来的视频 AI 不仅要生成更长、更清晰的内容,还要理解运动来源、结构稳定性及复杂场景中的变化预测。

从改画面到改运动

谷歌与石溪大学提出的《MotionV2V》研究了如何编辑视频中的“运动”。用户可通过修改稀疏轨迹点来改变物体方向、镜头运动等,而系统则基于原始轨迹和目标轨迹生成新视频。相比现有方法,MotionV2V 能更好地保留原视频内容并支持多次编辑。类似地,Adobe 和马里兰大学的《Generative Video Motion Editing with 3D Point Tracks》通过 3D 点轨迹进一步提升了运动编辑的深度感知能力,可同时调整相机和物体运动。

让模型学会「怎么动」

上海交通大学等机构的《AdapTok》提出了一种自适应视频 tokenization 方法,根据视频内容动态分配 token,从而提升生成效率。而苹果与 LMU 的《Learning Long-term Motion Embeddings》则探索了紧凑的运动表示,将“生成视频”简化为“生成运动”,更适合长期动态建模和机器人规划。

从修复画面到理解信号来源

南开大学等机构的《Flickerformer》解决了短曝光连拍图像中的闪烁问题,利用频闪的周期性和方向性设计网络模块,有效去除了条纹状退化。CMU 的《Dual Band Video Thermography》则分离了热成像中的发射和反射信号,帮助区分温度变化与背景干扰。

让视觉模型进入真实世界任务

艾伦人工智能研究所等机构的《Helios》提出了面向地球观测的多模态基础模型 OlmoEarth,结合图像、时间序列和地图标注,为环保和公共利益任务提供稳定高效的解决方案。

视频模型正从单纯的生成工具,逐步演变为能够理解、编辑和推演现实世界的动态智能系统。这一趋势标志着 AI 在复杂场景中应用的重要一步。

原文链接
本文链接:https://kx.umi6.com/article/35888.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
阿里发布电影级视频模型万相2.6
2025-12-16 13:40:51
不是视频模型“学习”慢,而是LLM走捷径|18万引大牛Sergey Levine
2025-06-10 17:50:38
文生视频公司Pika获新一轮8000万融资,估值达4.7亿美元
2024-06-06 19:53:53
57.1%的人分不清真假!Runway新视频模型太爆炸
2026-01-22 14:56:01
谷歌把整个地球装进大模型!实时观测,按天更新
2025-08-01 08:58:42
我们试了市面上八款视频模型,发现Sora 确实不太行了
2024-12-30 18:28:36
把Runway、Luma们一锅端了!这款视频模型上“杀手级”功能:一致性魔咒终于打破
2024-11-14 16:16:23
当AI学会看山看海:坤元大模型如何重新定义地球观测
2026-01-01 18:29:14
120 秒生成 120 帧,视频模型 Dream Machine 开放测试免费试用
2024-06-13 11:47:03
Midjourney发布视频模型:不卷分辨率,但网友直呼画面惊艳
2025-06-19 15:51:06
6.4k Stars!用Claude Code写论文的全套流水线,有人打包开源了
2026-05-17 12:35:21
远超3800亿!吴泳铭定调阿里未来AI基建投入
2026-05-14 00:06:45
台积电:AIGC应用与Agent工作流快速成长 正指数性消耗大量Token
2026-05-14 15:45:36
24小时热文
更多
扫一扫体验小程序