标题:单GPU高效生成高清长视频,LinGen突破DiT瓶颈 | 普林斯顿&Meta
视频生成模型昂贵且运行缓慢?普林斯顿大学与Meta合作推出的LinGen框架通过引入MATE模块,将计算复杂度从像素数平方降至线性,使单张GPU即可在分钟级别生成高质量视频,效率提升十倍。实验显示,LinGen在视频质量上优于DiT,最高减少15倍FLOPs和延迟,与顶级模型媲美。
LinGen保留DiT架构,仅替换其核心自注意力模块为MATE。MATE由MA和TE两部分组成,MA采用Mamba2模块并结合Rotary Major Scan(RMS),实现高效硬件适配。TE则利用TESA模块聚焦临近信息,确保线性复杂度。此外,LinGen引入review tokens增强长程一致性。
评估显示,LinGen在FLOPs和延迟上均大幅超越DiT,推理速度提升超11倍。与DiT相比,LinGen更易适应长序列任务,尤其在预训练初期表现优异。项目主页:https://lineargen.github.io/;论文链接:https://arxiv.org/abs/2412.09856;代码仓库:https://github.com/jha-lab/LinGen。
原文链接
本文链接:https://kx.umi6.com/article/20390.html
转载请注明文章出处
相关推荐
.png)
换一换
OpenAI发布最新视频模型Sora Turbo,会员免费用,网站被挤爆
2024-12-10 10:51:02
阿里万相视频生成大模型宣布开源:8.2GB 显存就能跑,测试超越 Sora
2025-02-25 23:11:59
MiniMax 发布视频生成工具 Hailuo 02,打破全球视频模型效果成本纪录
2025-06-19 09:45:37
403 文章
53681 浏览
24小时热文
更多

-
2025-07-19 12:53:03
-
2025-07-19 12:51:53
-
2025-07-19 11:52:20