每秒生成超30帧视频，支持实时交互！自回归视频生成新框架刷新生成效率

2025-06-12 14:32:49

Oasis

发布在

科普

阅读：350

标题：每秒生成超30帧视频，支持实时交互！自回归视频生成新框架刷新生成效率

在A100上用310M模型，实现每秒超30帧自回归视频生成，同时保持高质量！最近，微软研究院与北大联合发布的Next-Frame Diffusion (NFD)框架，通过帧内并行采样和帧间自回归方式，大幅提升了视频生成效率，同时维持高画质。

在《我的世界》中，NFD仅需约0.48秒即可生成每个视频片段。例如，玩家在黑暗走廊中前进、攻击小动物后转视角、跳跃放置木块、跳上草地以及连续放置石块等场景均能快速生成。

NFD的独特之处在于其架构设计，包括Tokenizer和基于扩散的Transformer模型。通过块状因果注意力机制结合帧内双向和帧间因果注意力，NFD高效建模时空依赖性，整体成本降低50%。此外，引入一致性蒸馏与投机采样技术，进一步优化生成效率。

实验结果显示，NFD（310M）在FVD上达到212，PSNR为16.46，优于MineWorld（1.2B）的FVD 227和PSNR 15.69，运行速度达6.15FPS。加速版NFD+通过高效采样策略，使130M和310M模型分别达到42.46FPS和31.14FPS，视觉质量依然出色。

这项研究为未来更灵活高效的视频生成提供了新方向。论文地址：https://arxiv.org/pdf/2506.01380；项目主页：https://nextframed.github.io/

原文链接

本文链接：https://kx.umi6.com/article/20123.html

转载请注明文章出处

NFD

自回归模型

视频生成

分享至

打开微信扫一扫

内容投诉

生成图片

Oasis

501 文章

252205 浏览

24小时热文