1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

复旦大学、上海市智能视觉计算协同创新中心联合微软等学术机构,在《ACM Computing Surveys》上发表了《A Survey on Video Diffusion Models》综述论文,系统梳理了扩散模型在视频生成、编辑及理解方面的进展。论文第一作者为复旦大学博士生邢桢,通讯作者为复旦大学吴祖煊副教授和姜育刚教授。该研究已在GitHub获得超过2k星。

论文将基于扩散模型的视频生成分为三类:基于文本、基于其他条件、无条件生成。基于文本的视频生成通过优化模型性能或借助文生图模型和大语言模型实现。基于其他条件的视频生成则包括姿势引导、动作引导等。无条件生成则细分为基于U-Net、Transformer和Mamba的生成。

在视频编辑方面,论文同样分为基于文本、基于其他条件及特定细分领域的视频编辑。基于文本的视频编辑利用预训练的T2I模型解决连贯性和语义不一致性问题。基于其他条件的视频编辑关注指令、声音、动作等条件。特定细分领域如视频着色和人像视频编辑有专门解决方案。

扩散模型在视频理解上也展现潜力,涵盖视频时序分割、异常检测、物体分割等应用。论文总结了扩散模型在视频任务上的最新研究,指出了大规模文本-视频数据集缺乏、物理世界真实性、长视频生成、高效训练和推理、可靠基准和评价指标、高可控性视频编辑等挑战。

论文链接:https://arxiv.org/abs/2310.10647
论文主页:https://github.com/ChenHsing/Awesome-Video-Diffusion-Models

原文链接
本文链接:https://kx.umi6.com/article/13977.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
视频扩散模型新突破!清华腾讯联合实现高保真3D生成,告别多视图依赖
2025-06-13 17:13:21
AI 造梦师:香港大学携手快手科技推出 GameFactory 框架,突破游戏场景泛化难题
2025-01-20 08:01:36
一拖一拽小猫“活了”,Netflix 等噪声扭曲算法让运动控制更简单
2025-02-03 22:18:30
495篇参考文献!北交大清华等高校发布多语言大模型综述
2025-01-17 10:12:14
复旦视频扩散模型综述:覆盖300+文献,探讨近期研究趋势与突破,Github揽星2k+
2025-02-21 14:47:58
Agent太火!这篇综述让你不把知识学杂了丨华东师大&东华大学出品
2025-03-27 14:48:53
字节发了个机器人全能大模型,带队人李航
2025-09-06 12:34:33
估值翻倍用时约 15 个月:法 AI 企业 Mistral 新融资轮中估值达 120 亿欧元
2025-09-05 12:18:29
摩尔线程及中介机构回复首轮审核问询函
2025-09-05 20:24:47
消息称 DeepSeek 正开发更先进模型:具备 AI 智能体能力,剑指年底发布
2025-09-04 18:07:12
智谱推出“Claude API 用户特别搬家计划”:替换 API URL 即可无缝切换
2025-09-05 18:22:23
高盛:人人都在谈论AI 但目前AI仍难与公司利润直接挂钩
2025-09-05 18:25:52
9.16-9.17来腾讯全球数字生态大会,与行业大咖「智者见智」共话AI增益新机
2025-09-04 20:06:13
24小时热文
更多
扫一扫体验小程序