1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

复旦大学、上海市智能视觉计算协同创新中心联合微软等学术机构,在《ACM Computing Surveys》上发表了《A Survey on Video Diffusion Models》综述论文,系统梳理了扩散模型在视频生成、编辑及理解方面的进展。论文第一作者为复旦大学博士生邢桢,通讯作者为复旦大学吴祖煊副教授和姜育刚教授。该研究已在GitHub获得超过2k星。

论文将基于扩散模型的视频生成分为三类:基于文本、基于其他条件、无条件生成。基于文本的视频生成通过优化模型性能或借助文生图模型和大语言模型实现。基于其他条件的视频生成则包括姿势引导、动作引导等。无条件生成则细分为基于U-Net、Transformer和Mamba的生成。

在视频编辑方面,论文同样分为基于文本、基于其他条件及特定细分领域的视频编辑。基于文本的视频编辑利用预训练的T2I模型解决连贯性和语义不一致性问题。基于其他条件的视频编辑关注指令、声音、动作等条件。特定细分领域如视频着色和人像视频编辑有专门解决方案。

扩散模型在视频理解上也展现潜力,涵盖视频时序分割、异常检测、物体分割等应用。论文总结了扩散模型在视频任务上的最新研究,指出了大规模文本-视频数据集缺乏、物理世界真实性、长视频生成、高效训练和推理、可靠基准和评价指标、高可控性视频编辑等挑战。

论文链接:https://arxiv.org/abs/2310.10647
论文主页:https://github.com/ChenHsing/Awesome-Video-Diffusion-Models

原文链接
本文链接:https://kx.umi6.com/article/13977.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
一拖一拽小猫“活了”,Netflix 等噪声扭曲算法让运动控制更简单
2025-02-03 22:18:30
Agent太火!这篇综述让你不把知识学杂了丨华东师大&东华大学出品
2025-03-27 14:48:53
视频扩散模型新突破!清华腾讯联合实现高保真3D生成,告别多视图依赖
2025-06-13 17:13:21
AI 造梦师:香港大学携手快手科技推出 GameFactory 框架,突破游戏场景泛化难题
2025-01-20 08:01:36
495篇参考文献!北交大清华等高校发布多语言大模型综述
2025-01-17 10:12:14
特斯拉CEO马斯克:预计未来AI芯片将严重不足
2026-04-23 11:06:01
京东方申请注册AI工厂商标
2026-04-24 13:12:56
中金公司:公募一季度大幅加仓偏AI产业链硬件端通信行业 减仓有色和电子
2026-04-23 09:00:20
OpenAI发布20颗HBM内存堆栈的芯片专利
2026-04-23 17:19:48
谷歌云推出7.5亿美元基金 助力合作伙伴加速智能体人工智能开发
2026-04-22 20:29:22
DeepSeek:预计下半年昇腾950超节点批量上市后 V4-Pro模型价格会大幅下调
2026-04-24 14:16:39
优必选发布Thinker cosmos:加码开发者生态,推动人形机器人走向规模化
2026-04-24 20:29:51
昇腾超节点系列产品全面支持DeepSeek V4新模型
2026-04-24 13:15:05
24小时热文
更多
扫一扫体验小程序