西湖大学张驰团队：不重训，也能让视频生成更长更稳丨CVPR 2026

2026-04-22 15:17:17

蝶舞CyberSwirl

发布在

科普

阅读：2125

标题：西湖大学张驰团队：无需重训，让视频生成更长更稳丨CVPR 2026

正文：
AI 视频生成技术近年来发展迅速，但一个核心问题始终未被彻底解决：如何在延长视频时长的同时保持画面的稳定性和一致性？西湖大学张驰团队提出了一种名为《Free-Lunch Long Video Generation via Layer-Adaptive O.O.D Correction》的新方法（简称 FreeLOC），为这一难题提供了突破性解决方案。

研究指出，AI 视频生成的主要挑战在于“位置 O.O.D”和“上下文 O.O.D”两类问题。当视频长度增加时，模型容易出现人物漂移、背景混乱和动作失真等问题。FreeLOC 的创新之处在于，它通过分层处理策略，针对不同层的问题进行针对性修正，从而显著提升了长视频生成的质量。

实验结果显示，FreeLOC 在 Wan2.1-T2V-1.3B 和 HunyuanVideo 等模型上均表现出色。例如，在 4 倍长度（321 帧）的生成任务中，FreeLOC 的主体一致性达到 98.44，图像质量为 67.44，美学质量为 61.21，动态程度为 36.27，远超其他方法。更重要的是，随着视频长度增加，FreeLOC 的优势愈发明显，证明其在高难度场景下的稳定性。

研究团队还通过消融实验验证了 FreeLOC 的核心机制。他们发现，单独使用 TSA（时间注意力控制）或 VRPR（多粒度位置重编码）虽能提升效果，但只有将两者结合并按层适配，才能实现最佳性能。此外，逐层分析 Transformer 的实验进一步揭示了不同层对问题的敏感性差异，为分层处理策略提供了理论支持。

这项研究的意义不仅在于技术指标的提升，更在于降低了长视频生成的技术门槛。与传统方法需要重新训练模型不同，FreeLOC 仅在推理阶段进行优化，大幅减少了算力成本，使现有模型更容易直接应用。这为内容创作者制作更长、更连贯的视频提供了便利，推动 AI 视频生成从“能生成”向“能使用”迈进了一大步。

论文一作田佳豪是西湖大学 AGI Lab 的科研助理，主要研究方向包括扩散生成模型和视频生成。通讯作者张驰教授是生成式人工智能领域的专家，长期深耕多模态生成建模和智能体系统，曾发表多项顶级会议成果。

参考链接：https://icoz69.github.io/

原文链接

本文链接：https://kx.umi6.com/article/35069.html

转载请注明文章出处

FreeLOC