1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率

在A100上用310M模型,实现每秒超30帧自回归视频生成,同时保持高质量!最近,微软研究院与北大联合发布的Next-Frame Diffusion (NFD)框架,通过帧内并行采样和帧间自回归方式,大幅提升了视频生成效率,同时维持高画质。

在《我的世界》中,NFD仅需约0.48秒即可生成每个视频片段。例如,玩家在黑暗走廊中前进、攻击小动物后转视角、跳跃放置木块、跳上草地以及连续放置石块等场景均能快速生成。

NFD的独特之处在于其架构设计,包括Tokenizer和基于扩散的Transformer模型。通过块状因果注意力机制结合帧内双向和帧间因果注意力,NFD高效建模时空依赖性,整体成本降低50%。此外,引入一致性蒸馏与投机采样技术,进一步优化生成效率。

实验结果显示,NFD(310M)在FVD上达到212,PSNR为16.46,优于MineWorld(1.2B)的FVD 227和PSNR 15.69,运行速度达6.15FPS。加速版NFD+通过高效采样策略,使130M和310M模型分别达到42.46FPS和31.14FPS,视觉质量依然出色。

这项研究为未来更灵活高效的视频生成提供了新方向。论文地址:https://arxiv.org/pdf/2506.01380;项目主页:https://nextframed.github.io/

原文链接
本文链接:https://kx.umi6.com/article/20123.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
淘宝“图生视频”“脚本成片”等多种AI工具上线!商家制作视频从未如此简单
2025-05-16 14:47:08
谷歌最强视频生成 AI 模型 Veo3 亮相:制作背景音、人物对话都不在话下
2025-05-21 03:51:16
微软开源视频Tokenizer新SOTA!显著优于Cosmos Tokenizer和Open-Sora
2024-12-26 12:32:40
鹅厂开源视频生成大杀器!参考图主体精准复刻,还能编辑现有视频
2025-05-09 21:57:02
中国AI融资总额27762亿元,启明创投周志峰预测:3年内视频生成将全面爆发
2024-07-09 00:29:02
库里杜兰特“合舞”科目三,腾讯混元团队全新图生视频模型来了
2024-06-10 17:32:05
视频大模型画饼哪家强?Gen-3演示效果绝杀Sora
2024-06-20 09:51:53
11B模型拿开源视频生成SOTA!仅用224张GPU训练,训练成本省10倍
2025-03-13 13:15:44
无需训练、即插即用,新算法大幅增强视频生成质量|NUS&上海AI Lab&UT Austin
2024-12-25 22:14:22
谷歌 Fluid 颠覆共识:两大因素被发现,AI 文生图领域自回归模型超越扩散模型
2024-10-23 14:39:38
腾讯AI视频生成曝光!与Sora同提示词PK,效果如何?
2024-12-02 14:51:40
快手版Sora「可灵」开放测试:生成超120s视频,更懂物理,复杂运动也能精准建模
2024-06-07 19:45:09
单GPU搞定高清长视频生成,效率×10!引入Mamba机制突破DiT瓶颈 | 普林斯顿&Meta
2025-06-18 16:39:37
24小时热文
更多
扫一扫体验小程序