标题:每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率
在A100上用310M模型,实现每秒超30帧自回归视频生成,同时保持高质量!最近,微软研究院与北大联合发布的Next-Frame Diffusion (NFD)框架,通过帧内并行采样和帧间自回归方式,大幅提升了视频生成效率,同时维持高画质。
在《我的世界》中,NFD仅需约0.48秒即可生成每个视频片段。例如,玩家在黑暗走廊中前进、攻击小动物后转视角、跳跃放置木块、跳上草地以及连续放置石块等场景均能快速生成。
NFD的独特之处在于其架构设计,包括Tokenizer和基于扩散的Transformer模型。通过块状因果注意力机制结合帧内双向和帧间因果注意力,NFD高效建模时空依赖性,整体成本降低50%。此外,引入一致性蒸馏与投机采样技术,进一步优化生成效率。
实验结果显示,NFD(310M)在FVD上达到212,PSNR为16.46,优于MineWorld(1.2B)的FVD 227和PSNR 15.69,运行速度达6.15FPS。加速版NFD+通过高效采样策略,使130M和310M模型分别达到42.46FPS和31.14FPS,视觉质量依然出色。
这项研究为未来更灵活高效的视频生成提供了新方向。论文地址:https://arxiv.org/pdf/2506.01380;项目主页:https://nextframed.github.io/
原文链接
本文链接:https://kx.umi6.com/article/20123.html
转载请注明文章出处
相关推荐
换一换
单GPU搞定高清长视频生成,效率×10!引入Mamba机制突破DiT瓶颈 | 普林斯顿&Meta
2025-06-18 16:39:37
鹅厂开源视频生成大杀器!参考图主体精准复刻,还能编辑现有视频
2025-05-09 21:57:02
潞晨尤洋:视频生成的GPT-4时刻,3年后可以见证 | MEET 2025
2025-01-03 15:44:15
快手版Sora「可灵」开放测试:生成超120s视频,更懂物理,复杂运动也能精准建模
2024-06-07 19:45:09
AI视频新霸主诞生,Dream Machine官宣免费用,电影级大片全网玩疯
2024-06-13 18:09:19
腾讯元宝上线一句话、一张图生成视频,基于混元大模型打造
2025-11-21 14:22:17
Sora二代实机演示曝光!解锁图生视频,奥特曼暗示:期待周一
2024-12-09 13:23:54
视频大模型“造梦机器”爆红:瑕疵真不少,关键是能用
2024-06-14 09:22:57
视频大模型画饼哪家强?Gen-3演示效果绝杀Sora
2024-06-20 09:51:53
30 秒让照片动起来,首个国产纯自研视频大模型 Vidu 上线
2024-08-01 18:28:17
阿里万相视频生成大模型宣布开源:8.2GB 显存就能跑,测试超越 Sora
2025-02-25 23:11:59
OpenAI 拟将视频生成工具 Sora 整合进 ChatGPT,并推出更强大 Sora Turbo
2025-03-01 10:50:58
Llama也能做图像生成!港大字节推出开源自回归文生图模型,在线体验已开放
2024-07-03 16:53:44
553 文章
333752 浏览
24小时热文
更多
-
2025-12-11 00:19:01 -
2025-12-11 00:15:55 -
2025-12-10 23:15:05