标题:每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率
在A100上用310M模型,实现每秒超30帧自回归视频生成,同时保持高质量!最近,微软研究院与北大联合发布的Next-Frame Diffusion (NFD)框架,通过帧内并行采样和帧间自回归方式,大幅提升了视频生成效率,同时维持高画质。
在《我的世界》中,NFD仅需约0.48秒即可生成每个视频片段。例如,玩家在黑暗走廊中前进、攻击小动物后转视角、跳跃放置木块、跳上草地以及连续放置石块等场景均能快速生成。
NFD的独特之处在于其架构设计,包括Tokenizer和基于扩散的Transformer模型。通过块状因果注意力机制结合帧内双向和帧间因果注意力,NFD高效建模时空依赖性,整体成本降低50%。此外,引入一致性蒸馏与投机采样技术,进一步优化生成效率。
实验结果显示,NFD(310M)在FVD上达到212,PSNR为16.46,优于MineWorld(1.2B)的FVD 227和PSNR 15.69,运行速度达6.15FPS。加速版NFD+通过高效采样策略,使130M和310M模型分别达到42.46FPS和31.14FPS,视觉质量依然出色。
这项研究为未来更灵活高效的视频生成提供了新方向。论文地址:https://arxiv.org/pdf/2506.01380;项目主页:https://nextframed.github.io/
原文链接
本文链接:https://kx.umi6.com/article/20123.html
转载请注明文章出处
相关推荐
换一换
爱诗科技完成3亿美元C轮融资,鼎晖领投,开启“实时交互”视频生成新纪元
2026-03-12 15:44:44
视频大模型“造梦机器”爆红:瑕疵真不少,关键是能用
2024-06-14 09:22:57
AI视频这条赛道,快手的可灵只是暂时领先
2024-07-26 18:15:42
快手可灵 2.5 Turbo 模型上线,较上代模型便宜近 30%
2025-09-23 20:22:21
全栈AI基础设施支撑,跑出全球首个开放使用视频生成DiT模型
2025-04-28 11:46:30
首次实现中文文字生成,消息称阿里通义万相 2.1 视频生成模型今晚开源
2025-02-25 18:03:21
AI版《黑客帝国》:无限生成逼真视频,3A画质,还能实时交互
2024-11-21 12:30:33
爱诗科技完成6000万美元B轮融资
2025-09-10 11:35:05
500美元刷新SOTA!训练成本砍到1/200,华人团队重构视频生成范式
2025-07-17 15:24:48
库里杜兰特“合舞”科目三,腾讯混元团队全新图生视频模型来了
2024-06-10 17:32:05
谷歌最强视频生成 AI 模型 Veo3 亮相:制作背景音、人物对话都不在话下
2025-05-21 03:51:16
OpenAI给不了的,DeepMind给,Sora联合负责人跳槽后开组新团队
2025-01-07 13:03:56
Meta Token-Shuffle 登场:自回归模型突破瓶颈,可 AI 生成 2048×2048 分辨率图像
2025-04-26 14:49:30
662 文章
526612 浏览
24小时热文
更多
-
2026-04-24 20:31:56 -
2026-04-24 20:29:51 -
2026-04-24 19:29:38