微软开源了一款全能视频Tokenizer——VidTok,其在连续和离散、不同压缩率等多种设定下,性能全面超越现有SOTA模型。测试显示,VidTok在PSNR、SSIM、FVD、LPIPS等指标上表现优异,尤其在离散Tokenizer中优于英伟达的Cosmos Tokenizer,而在连续Tokenizer中胜过Open-Sora和CogVideoX。
VidTok由微软亚研院、上海交通大学和北京大学的研究团队共同研发,支持自定义数据集微调,为研究者和开发者提供了高性能、易用的工具平台。它能有效降低模型训练和推理时的计算需求,支持多样化的隐空间和压缩率,兼容因果和非因果模型,满足不同需求。
VidTok的技术亮点在于其高效的混合模型架构设计、先进的有限标量量化技术和分阶段训练策略。混合模型架构结合3D、2D和1D卷积,解耦空间和时间采样;有限标量量化技术无需显式学习码本,提高训练稳定性和重建性能;分阶段训练策略显著减少计算成本,保持重建质量。
原文链接
本文链接:https://kx.umi6.com/article/10777.html
转载请注明文章出处
相关推荐
换一换
SkyReels-V2开源:突破视频生成技术边界,开启无限时长电影生成新时代
2025-04-21 10:36:16
第一批不找工作的年轻人,靠AI半年赚30万
2024-10-16 10:22:27
AI造梦师,大模型正在孵化下一个黄金职业
2024-05-29 10:19:02
单GPU搞定高清长视频生成,效率×10!引入Mamba机制突破DiT瓶颈 | 普林斯顿&Meta
2025-06-18 16:39:37
首月最低价19元 快手可灵AI全球会员体系正式上线:支持AI视频生成
2024-08-23 17:35:08
还得是开源!潞晨Open-Sora技术路线公开,一键生成16秒720p视频
2024-06-18 14:10:52
谷歌 Veo 2 视频生成模型入驻 Gemini,用户可创建 8 秒 720p 视频
2025-04-16 08:56:41
腾讯AI视频生成曝光!与Sora同提示词PK,效果如何?
2024-12-02 14:51:40
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law
2025-12-22 13:45:27
AI视频新霸主诞生,Dream Machine官宣免费用,电影级大片全网玩疯
2024-06-13 18:09:19
无需训练、即插即用,新算法大幅增强视频生成质量|NUS&上海AI Lab&UT Austin
2024-12-25 22:14:22
阿里巴巴开源视频生成与编辑模型通义万相 Wan2.1-VACE
2025-05-16 14:14:59
视频大模型画饼哪家强?Gen-3演示效果绝杀Sora
2024-06-20 09:51:53
612 文章
402564 浏览
24小时热文
更多
-
2025-12-22 17:57:05 -
2025-12-22 17:56:10 -
2025-12-22 17:55:58