复旦大学、上海市智能视觉计算协同创新中心联合微软等学术机构,在《ACM Computing Surveys》上发表了《A Survey on Video Diffusion Models》综述论文,系统梳理了扩散模型在视频生成、编辑及理解方面的进展。论文第一作者为复旦大学博士生邢桢,通讯作者为复旦大学吴祖煊副教授和姜育刚教授。该研究已在GitHub获得超过2k星。
论文将基于扩散模型的视频生成分为三类:基于文本、基于其他条件、无条件生成。基于文本的视频生成通过优化模型性能或借助文生图模型和大语言模型实现。基于其他条件的视频生成则包括姿势引导、动作引导等。无条件生成则细分为基于U-Net、Transformer和Mamba的生成。
在视频编辑方面,论文同样分为基于文本、基于其他条件及特定细分领域的视频编辑。基于文本的视频编辑利用预训练的T2I模型解决连贯性和语义不一致性问题。基于其他条件的视频编辑关注指令、声音、动作等条件。特定细分领域如视频着色和人像视频编辑有专门解决方案。
扩散模型在视频理解上也展现潜力,涵盖视频时序分割、异常检测、物体分割等应用。论文总结了扩散模型在视频任务上的最新研究,指出了大规模文本-视频数据集缺乏、物理世界真实性、长视频生成、高效训练和推理、可靠基准和评价指标、高可控性视频编辑等挑战。
论文链接:https://arxiv.org/abs/2310.10647
论文主页:https://github.com/ChenHsing/Awesome-Video-Diffusion-Models
原文链接
本文链接:https://kx.umi6.com/article/13977.html
转载请注明文章出处
相关推荐
.png)
换一换
495篇参考文献!北交大清华等高校发布多语言大模型综述
2025-01-17 10:12:14
AI 造梦师:香港大学携手快手科技推出 GameFactory 框架,突破游戏场景泛化难题
2025-01-20 08:01:36
一拖一拽小猫“活了”,Netflix 等噪声扭曲算法让运动控制更简单
2025-02-03 22:18:30
视频扩散模型新突破!清华腾讯联合实现高保真3D生成,告别多视图依赖
2025-06-13 17:13:21
复旦视频扩散模型综述:覆盖300+文献,探讨近期研究趋势与突破,Github揽星2k+
2025-02-21 14:47:58
Agent太火!这篇综述让你不把知识学杂了丨华东师大&东华大学出品
2025-03-27 14:48:53
肖远企:目前AI在金融领域的应用仍处于早期阶段 无法取代人的决策
2025-10-23 16:12:32
存储芯片“超级周期”持续演绎:三星、SK海力士料将涨价30% 客户开启囤货模式
2025-10-23 15:11:46
OpenAI秘密项目曝光:进军投行业务
2025-10-22 16:49:15
阿里回应“C计划”爆料 夸克上线对话助手挑战豆包 AI App下一步如何进化?
2025-10-23 14:06:33
Netflix 宣布全力投入 AI:“能帮人类把故事讲得更好”
2025-10-22 16:48:46
全球首个百亿级可部署基因组基础模型诞生
2025-10-23 07:59:17
国家海洋局局长孙书贤:优先推动与民生紧密相关社会需求迫切的数据资源向社会开放
2025-10-22 15:48:53
543 文章
264935 浏览
24小时热文
更多

-
2025-10-24 05:23:38
-
2025-10-24 03:21:23
-
2025-10-24 01:20:07