复旦视频扩散模型综述：覆盖300+文献，探讨近期研究趋势与突破，Github揽星2k+

2025-02-21 14:47:58

发布在

科普

阅读：385

复旦大学、上海市智能视觉计算协同创新中心联合微软等学术机构，在《ACM Computing Surveys》上发表了《A Survey on Video Diffusion Models》综述论文，系统梳理了扩散模型在视频生成、编辑及理解方面的进展。论文第一作者为复旦大学博士生邢桢，通讯作者为复旦大学吴祖煊副教授和姜育刚教授。该研究已在GitHub获得超过2k星。

论文将基于扩散模型的视频生成分为三类：基于文本、基于其他条件、无条件生成。基于文本的视频生成通过优化模型性能或借助文生图模型和大语言模型实现。基于其他条件的视频生成则包括姿势引导、动作引导等。无条件生成则细分为基于U-Net、Transformer和Mamba的生成。

在视频编辑方面，论文同样分为基于文本、基于其他条件及特定细分领域的视频编辑。基于文本的视频编辑利用预训练的T2I模型解决连贯性和语义不一致性问题。基于其他条件的视频编辑关注指令、声音、动作等条件。特定细分领域如视频着色和人像视频编辑有专门解决方案。

扩散模型在视频理解上也展现潜力，涵盖视频时序分割、异常检测、物体分割等应用。论文总结了扩散模型在视频任务上的最新研究，指出了大规模文本-视频数据集缺乏、物理世界真实性、长视频生成、高效训练和推理、可靠基准和评价指标、高可控性视频编辑等挑战。

论文链接：https://arxiv.org/abs/2310.10647
论文主页：https://github.com/ChenHsing/Awesome-Video-Diffusion-Models

原文链接

本文链接：https://kx.umi6.com/article/13977.html

转载请注明文章出处

生成编辑理解