标题:视频生成无损提速:删除多余token,训练时间减少30%,帧率越高效果越好
正文:
视频生成无损提速:删除多余token,训练时间减少30%,帧率越高效果越好
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI
卡内基梅隆大学提出了一种名为Run-Length Tokenization(RLT)的视频生成模型加速方法,其精度几乎不受影响,但能显著提升训练和推理速度。
在精度几乎不变的前提下,RLT能使模型的训练时间缩短30%,推理速度提升67%。
RLT的核心原理是将视频中重复的图像块合并为一个token表示,并用位置编码表示这些token的长度,从而减少输入token的数量。
对于30fps视频,训练速度可提升1倍,长视频的训练token减少80%。
相比传统剪枝方法,RLT能以较小的精度损失实现更好的加速效果。
重复图像块合为一个token
RLT通过分块将视频划分为固定大小的图像块,然后比较相邻图像块的相似度,决定是否合并。
如果距离小于预设阈值,则认为这些图像块是重复的,并只保留第一个块对应的token。
合并后,每个token会添加长度编码,以保留完整视频信息。
最终,处理后的token序列被输入到视频Transformer中进行训练或推理。
训练时长下降30%
在训练阶段,RLT对不同规模的模型均有显著加速效果。
例如,在Kinetics-400上,ViT-B和ViT-L的训练时间分别从14.4小时和21.6小时降至10.2小时和15.4小时,精度损失不超过0.1个百分点。
在推理阶段,RLT几乎不牺牲精度,计算量和延迟降低30-60%。
对于30fps的视频,加速效果更为显著,可达100%。
论文地址:
https://arxiv.org/abs/2411.05222
代码:
https://github.com/rccchoudhury/rlt
原文链接
本文链接:https://kx.umi6.com/article/8849.html
转载请注明文章出处
相关推荐
换一换
30 秒让照片动起来,首个国产纯自研视频大模型 Vidu 上线
2024-08-01 18:28:17
AI 视频生成王者 Sora 上线:OpenAI 的“魔法棒”,1080P@20 秒具象化你的想象力
2024-12-10 07:44:58
视频大模型画饼哪家强?Gen-3演示效果绝杀Sora
2024-06-20 09:51:53
视频生成平台 Runway 获得新技能:更改视频比例,图片拥有“电影级”运镜
2024-11-23 23:35:00
微软开源视频Tokenizer新SOTA!显著优于Cosmos Tokenizer和Open-Sora
2024-12-26 12:32:40
潞晨尤洋:视频生成的GPT-4时刻,3年后可以见证 | MEET 2025
2025-01-03 15:44:15
独家|字节跳动AI助手豆包开启视频生成内测
2024-11-07 13:02:07
OpenAI 阿尔特曼在线征集“新年愿望”,网友期待新增家庭账户、优化语音聊天等
2024-12-26 09:27:03
下一代OpenClaw来了?“龙虾之父”称将率先支持阿里千问
2026-04-07 12:53:34
OpenAI给不了的,DeepMind给,Sora联合负责人跳槽后开组新团队
2025-01-07 13:03:56
腾讯版Sora开源后,被提速8倍!官方点赞并预告:下月上新图生视频
2024-12-19 22:09:00
谷歌 Veo 2 视频生成模型入驻 Gemini,用户可创建 8 秒 720p 视频
2025-04-16 08:56:41
刚刚,全球视频模型新王诞生了!
2026-03-19 16:05:16
721 文章
560865 浏览
24小时热文
更多
-
2026-04-24 20:31:56 -
2026-04-24 20:29:51 -
2026-04-24 19:29:38