标题:视频生成无损提速:删除多余token,训练时间减少30%,帧率越高效果越好
正文:
视频生成无损提速:删除多余token,训练时间减少30%,帧率越高效果越好
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI
卡内基梅隆大学提出了一种名为Run-Length Tokenization(RLT)的视频生成模型加速方法,其精度几乎不受影响,但能显著提升训练和推理速度。
在精度几乎不变的前提下,RLT能使模型的训练时间缩短30%,推理速度提升67%。
RLT的核心原理是将视频中重复的图像块合并为一个token表示,并用位置编码表示这些token的长度,从而减少输入token的数量。
对于30fps视频,训练速度可提升1倍,长视频的训练token减少80%。
相比传统剪枝方法,RLT能以较小的精度损失实现更好的加速效果。
重复图像块合为一个token
RLT通过分块将视频划分为固定大小的图像块,然后比较相邻图像块的相似度,决定是否合并。
如果距离小于预设阈值,则认为这些图像块是重复的,并只保留第一个块对应的token。
合并后,每个token会添加长度编码,以保留完整视频信息。
最终,处理后的token序列被输入到视频Transformer中进行训练或推理。
训练时长下降30%
在训练阶段,RLT对不同规模的模型均有显著加速效果。
例如,在Kinetics-400上,ViT-B和ViT-L的训练时间分别从14.4小时和21.6小时降至10.2小时和15.4小时,精度损失不超过0.1个百分点。
在推理阶段,RLT几乎不牺牲精度,计算量和延迟降低30-60%。
对于30fps的视频,加速效果更为显著,可达100%。
论文地址:
https://arxiv.org/abs/2411.05222
代码:
https://github.com/rccchoudhury/rlt
原文链接
本文链接:https://kx.umi6.com/article/8849.html
转载请注明文章出处
相关推荐
换一换
单GPU搞定高清长视频生成,效率×10!引入Mamba机制突破DiT瓶颈 | 普林斯顿&Meta
2025-06-18 16:39:37
视频生成平台 Runway 举办年度 AI 电影节,6000 部参赛作品决出十强
2025-06-09 09:23:25
还得是开源!潞晨Open-Sora技术路线公开,一键生成16秒720p视频
2024-06-18 14:10:52
腾讯AI视频生成曝光!与Sora同提示词PK,效果如何?
2024-12-02 14:51:40
刚刚,全球视频模型新王诞生了!
2026-03-19 16:05:16
谷歌 Veo 2 视频生成模型入驻 Gemini,用户可创建 8 秒 720p 视频
2025-04-16 08:56:41
95后华人整顿AI圈,创业估值超1300亿,跑出4家独角兽
2024-06-14 08:52:44
低端显卡登上AI的大船!6GB显存就能生成高质量视频
2025-04-20 23:22:18
Sora 二代实机演示曝光:解锁图生视频,阿尔特曼暗示“期待周二”
2024-12-09 15:35:15
开源全家桶又添一“元”,腾讯混元大模型公布最新进展
2024-12-04 14:41:21
新版Sora要来了?泄露视频引围观
2024-12-09 17:32:14
马斯克收购视频生成初创公司,4人13个月打造类Sora模型
2025-03-19 07:14:13
MiniMax 发布视频生成工具 Hailuo 02,打破全球视频模型效果成本纪录
2025-06-19 09:45:37
754 文章
652008 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41