微软开源了一款全能视频Tokenizer——VidTok,其在连续和离散、不同压缩率等多种设定下,性能全面超越现有SOTA模型。测试显示,VidTok在PSNR、SSIM、FVD、LPIPS等指标上表现优异,尤其在离散Tokenizer中优于英伟达的Cosmos Tokenizer,而在连续Tokenizer中胜过Open-Sora和CogVideoX。
VidTok由微软亚研院、上海交通大学和北京大学的研究团队共同研发,支持自定义数据集微调,为研究者和开发者提供了高性能、易用的工具平台。它能有效降低模型训练和推理时的计算需求,支持多样化的隐空间和压缩率,兼容因果和非因果模型,满足不同需求。
VidTok的技术亮点在于其高效的混合模型架构设计、先进的有限标量量化技术和分阶段训练策略。混合模型架构结合3D、2D和1D卷积,解耦空间和时间采样;有限标量量化技术无需显式学习码本,提高训练稳定性和重建性能;分阶段训练策略显著减少计算成本,保持重建质量。
原文链接
本文链接:https://kx.umi6.com/article/10777.html
转载请注明文章出处
相关推荐
换一换
每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率
2025-06-12 14:32:49
刚刚,全球视频模型新王诞生了!
2026-03-19 16:05:16
中山大学梁小丹团队论文:让视频生成从「看起来真实」到「物理上正确」丨CVPR 2026
2026-03-30 14:53:39
腾讯版Sora发布即开源!130亿参数,模型权重、推理代码全开放
2024-12-03 16:22:39
即梦AI网页版全面升级 打造一站式“AI片场”助力创意实现
2025-12-17 21:04:52
一秒钟要两块钱的视频AI,为啥我还觉得挺值
2024-07-03 14:12:06
低端显卡登上AI的大船!6GB显存就能生成高质量视频
2025-04-20 23:22:18
中国AI融资总额27762亿元,启明创投周志峰预测:3年内视频生成将全面爆发
2024-07-09 00:29:02
95后华人整顿AI圈,创业估值超1300亿,跑出4家独角兽
2024-06-14 08:52:44
阿里通义万相 2.1 模型宣布升级:首次实现中文文字视频生成功能,支持无限长 1080P 视频的高效编解码
2025-01-10 11:16:50
视频生成平台 Runway 获得新技能:更改视频比例,图片拥有“电影级”运镜
2024-11-23 23:35:00
腾讯AI视频生成曝光!与Sora同提示词PK,效果如何?
2024-12-02 14:51:40
视频大模型画饼哪家强?Gen-3演示效果绝杀Sora
2024-06-20 09:51:53
726 文章
662550 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41