视频生成无损提速：删除多余token，训练时间减少30%，帧率越高效果越好

卡内基梅隆大学提出了一种名为Run-Length Tokenization（RLT）的视频生成模型加速方法，其精度几乎不受影响，但能显著提升训练和推理速度。

在精度几乎不变的前提下，RLT能使模型的训练时间缩短30%，推理速度提升67%。

RLT的核心原理是将视频中重复的图像块合并为一个token表示，并用位置编码表示这些token的长度，从而减少输入token的数量。

对于30fps视频，训练速度可提升1倍，长视频的训练token减少80%。

相比传统剪枝方法，RLT能以较小的精度损失实现更好的加速效果。

重复图像块合为一个token

RLT通过分块将视频划分为固定大小的图像块，然后比较相邻图像块的相似度，决定是否合并。

如果距离小于预设阈值，则认为这些图像块是重复的，并只保留第一个块对应的token。

合并后，每个token会添加长度编码，以保留完整视频信息。

最终，处理后的token序列被输入到视频Transformer中进行训练或推理。

在训练阶段，RLT对不同规模的模型均有显著加速效果。

例如，在Kinetics-400上，ViT-B和ViT-L的训练时间分别从14.4小时和21.6小时降至10.2小时和15.4小时，精度损失不超过0.1个百分点。

在推理阶段，RLT几乎不牺牲精度，计算量和延迟降低30-60%。

对于30fps的视频，加速效果更为显著，可达100%。

论文地址：
https://arxiv.org/abs/2411.05222
代码：
https://github.com/rccchoudhury/rlt

原文链接

本文链接：https://kx.umi6.com/article/8849.html

转载请注明文章出处

Tokenization

加速

视频生成

分享至

打开微信扫一扫

内容投诉

生成图片

AI创想团

754 文章

652008 浏览

24小时热文