1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率

在A100上用310M模型,实现每秒超30帧自回归视频生成,同时保持高质量!最近,微软研究院与北大联合发布的Next-Frame Diffusion (NFD)框架,通过帧内并行采样和帧间自回归方式,大幅提升了视频生成效率,同时维持高画质。

在《我的世界》中,NFD仅需约0.48秒即可生成每个视频片段。例如,玩家在黑暗走廊中前进、攻击小动物后转视角、跳跃放置木块、跳上草地以及连续放置石块等场景均能快速生成。

NFD的独特之处在于其架构设计,包括Tokenizer和基于扩散的Transformer模型。通过块状因果注意力机制结合帧内双向和帧间因果注意力,NFD高效建模时空依赖性,整体成本降低50%。此外,引入一致性蒸馏与投机采样技术,进一步优化生成效率。

实验结果显示,NFD(310M)在FVD上达到212,PSNR为16.46,优于MineWorld(1.2B)的FVD 227和PSNR 15.69,运行速度达6.15FPS。加速版NFD+通过高效采样策略,使130M和310M模型分别达到42.46FPS和31.14FPS,视觉质量依然出色。

这项研究为未来更灵活高效的视频生成提供了新方向。论文地址:https://arxiv.org/pdf/2506.01380;项目主页:https://nextframed.github.io/

原文链接
本文链接:https://kx.umi6.com/article/20123.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI Sora 应用限时开放:美、加、日、韩用户无需邀请码即可进入
2025-11-02 15:28:45
西湖大学张驰团队:从视觉合成到空间理解,视频 AI 正在「转向」丨CVPR 2026
2026-04-22 15:15:46
腾讯元宝上线一句话、一张图生成视频,基于混元大模型打造
2025-11-21 14:22:17
快手可灵 2.5 Turbo 模型上线,较上代模型便宜近 30%
2025-09-23 20:22:21
腾讯混元技术负责人刘威离职创业 瞄准视频生成领域
2024-11-19 16:52:19
昆仑万维开源 SkyReels-V2 模型,开启生成“无限时长”视频时代
2025-04-21 15:45:45
AI的下个进化和爆点
2024-07-29 09:23:23
腾讯版Sora开源后,被提速8倍!官方点赞并预告:下月上新图生视频
2024-12-19 22:09:00
MiniMax 发布视频生成工具 Hailuo 02,打破全球视频模型效果成本纪录
2025-06-19 09:45:37
对比Sora与国产视频模型生成效果后,我对Sora祛魅了
2024-12-20 11:26:51
10秒极速出片!还有超多特效模版,国产视频模型又整新活了
2025-01-01 18:00:30
微软开源视频Tokenizer新SOTA!显著优于Cosmos Tokenizer和Open-Sora
2024-12-26 12:32:40
何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS’25 Oral
2025-11-14 13:59:52
24小时热文
更多
扫一扫体验小程序