1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:西湖大学张驰团队:无需重训,让视频生成更长更稳丨CVPR 2026

正文:
AI 视频生成技术近年来发展迅速,但一个核心问题始终未被彻底解决:如何在延长视频时长的同时保持画面的稳定性和一致性?西湖大学张驰团队提出了一种名为《Free-Lunch Long Video Generation via Layer-Adaptive O.O.D Correction》的新方法(简称 FreeLOC),为这一难题提供了突破性解决方案。

研究指出,AI 视频生成的主要挑战在于“位置 O.O.D”和“上下文 O.O.D”两类问题。当视频长度增加时,模型容易出现人物漂移、背景混乱和动作失真等问题。FreeLOC 的创新之处在于,它通过分层处理策略,针对不同层的问题进行针对性修正,从而显著提升了长视频生成的质量。

实验结果显示,FreeLOC 在 Wan2.1-T2V-1.3B 和 HunyuanVideo 等模型上均表现出色。例如,在 4 倍长度(321 帧)的生成任务中,FreeLOC 的主体一致性达到 98.44,图像质量为 67.44,美学质量为 61.21,动态程度为 36.27,远超其他方法。更重要的是,随着视频长度增加,FreeLOC 的优势愈发明显,证明其在高难度场景下的稳定性。

研究团队还通过消融实验验证了 FreeLOC 的核心机制。他们发现,单独使用 TSA(时间注意力控制)或 VRPR(多粒度位置重编码)虽能提升效果,但只有将两者结合并按层适配,才能实现最佳性能。此外,逐层分析 Transformer 的实验进一步揭示了不同层对问题的敏感性差异,为分层处理策略提供了理论支持。

这项研究的意义不仅在于技术指标的提升,更在于降低了长视频生成的技术门槛。与传统方法需要重新训练模型不同,FreeLOC 仅在推理阶段进行优化,大幅减少了算力成本,使现有模型更容易直接应用。这为内容创作者制作更长、更连贯的视频提供了便利,推动 AI 视频生成从“能生成”向“能使用”迈进了一大步。

论文一作田佳豪是西湖大学 AGI Lab 的科研助理,主要研究方向包括扩散生成模型和视频生成。通讯作者张驰教授是生成式人工智能领域的专家,长期深耕多模态生成建模和智能体系统,曾发表多项顶级会议成果。

参考链接:https://icoz69.github.io/

原文链接
本文链接:https://kx.umi6.com/article/35069.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
全球首个世界统一模型发布,机器人家庭成员来了!
2026-04-22 14:07:52
工信部:重点地区挑大梁作用突出 10个工业大省规模以上工业增加值增速约7.2%
2026-04-21 11:02:03
从GPU到Token:AI基础设施竞争逻辑重构
2026-04-22 13:05:57
广东:加快人工智能在自动驾驶、智能座舱等领域应用 推动整车企业积极按程序争取L3级自动驾驶车型准入和上路通行试点
2026-04-22 17:24:40
英伟达接洽韩国电力设备企业 讨论800V直流系统合作
2026-04-22 17:20:17
一季度工业机器人产量同比增长33.2%
2026-04-21 10:59:46
福布斯发布2026年AI50榜单:OpenAI、Anthropic领衔 20家公司新上榜
2026-04-21 19:20:40
汇丰策略师:美股涨势未完待续 企业盈利势头足以抵消地缘政治风险
2026-04-22 17:21:24
这些人读个博一年能挣几十万?2026苹果学者名单公布了
2026-04-22 16:15:29
年内A股市场新增超千起并购重组交易
2026-04-22 08:54:54
经济日报:用好我国的词元优势
2026-04-22 06:49:31
黄仁勋回应N卡抢钱:我牛贵 但我下的奶便宜啊!
2026-04-22 13:07:12
广东:支持终端品牌企业推进以智能体为核心的产品开发
2026-04-22 17:22:29
24小时热文
更多
扫一扫体验小程序