微软开源了一款全能视频Tokenizer——VidTok,其在连续和离散、不同压缩率等多种设定下,性能全面超越现有SOTA模型。测试显示,VidTok在PSNR、SSIM、FVD、LPIPS等指标上表现优异,尤其在离散Tokenizer中优于英伟达的Cosmos Tokenizer,而在连续Tokenizer中胜过Open-Sora和CogVideoX。
VidTok由微软亚研院、上海交通大学和北京大学的研究团队共同研发,支持自定义数据集微调,为研究者和开发者提供了高性能、易用的工具平台。它能有效降低模型训练和推理时的计算需求,支持多样化的隐空间和压缩率,兼容因果和非因果模型,满足不同需求。
VidTok的技术亮点在于其高效的混合模型架构设计、先进的有限标量量化技术和分阶段训练策略。混合模型架构结合3D、2D和1D卷积,解耦空间和时间采样;有限标量量化技术无需显式学习码本,提高训练稳定性和重建性能;分阶段训练策略显著减少计算成本,保持重建质量。
原文链接
本文链接:https://kx.umi6.com/article/10777.html
转载请注明文章出处
相关推荐
换一换
每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率
2025-06-12 14:32:49
王炸!谁能想到年底杀出的黑马是美图啊
2024-11-22 16:03:28
预定最强视频生成 AI 模型,OpenAI Sora 2 现踪迹
2025-07-24 11:05:38
视频大模型“造梦机器”爆红:瑕疵真不少,关键是能用
2024-06-14 09:22:57
OpenAI 阿尔特曼在线征集“新年愿望”,网友期待新增家庭账户、优化语音聊天等
2024-12-26 09:27:03
腾讯元宝上线一句话、一张图生成视频,基于混元大模型打造
2025-11-21 14:22:17
Sora 二代实机演示曝光:解锁图生视频,阿尔特曼暗示“期待周二”
2024-12-09 15:35:15
视频生成平台 Runway 举办年度 AI 电影节,6000 部参赛作品决出十强
2025-06-09 09:23:25
视频生成的“ChatGPT时刻”究竟有没有到来?
2024-07-26 14:44:17
腾讯AI视频生成曝光!与Sora同提示词PK,效果如何?
2024-12-02 14:51:40
单GPU搞定高清长视频生成,效率×10!引入Mamba机制突破DiT瓶颈 | 普林斯顿&Meta
2025-06-18 16:39:37
OpenAI发布最新视频模型Sora Turbo,会员免费用,网站被挤爆
2024-12-10 10:51:02
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law
2025-12-22 13:45:27
658 文章
487990 浏览
24小时热文
更多
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18