1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

微软开源了一款全能视频Tokenizer——VidTok,其在连续和离散、不同压缩率等多种设定下,性能全面超越现有SOTA模型。测试显示,VidTok在PSNR、SSIM、FVD、LPIPS等指标上表现优异,尤其在离散Tokenizer中优于英伟达的Cosmos Tokenizer,而在连续Tokenizer中胜过Open-Sora和CogVideoX。

VidTok由微软亚研院、上海交通大学和北京大学的研究团队共同研发,支持自定义数据集微调,为研究者和开发者提供了高性能、易用的工具平台。它能有效降低模型训练和推理时的计算需求,支持多样化的隐空间和压缩率,兼容因果和非因果模型,满足不同需求。

VidTok的技术亮点在于其高效的混合模型架构设计、先进的有限标量量化技术和分阶段训练策略。混合模型架构结合3D、2D和1D卷积,解耦空间和时间采样;有限标量量化技术无需显式学习码本,提高训练稳定性和重建性能;分阶段训练策略显著减少计算成本,保持重建质量。

原文链接
本文链接:https://kx.umi6.com/article/10777.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
阿里发布万相 2.6 系列模型,上线国内首个角色扮演功能
2025-12-16 14:45:47
腾讯AI视频生成曝光!与Sora同提示词PK,效果如何?
2024-12-02 14:51:40
阿里万相视频生成大模型宣布开源:8.2GB 显存就能跑,测试超越 Sora
2025-02-25 23:11:59
AI 视频生成王者 Sora 上线:OpenAI 的“魔法棒”,1080P@20 秒具象化你的想象力
2024-12-10 07:44:58
淘宝“图生视频”“脚本成片”等多种AI工具上线!商家制作视频从未如此简单
2025-05-16 14:47:08
AI版《黑客帝国》:无限生成逼真视频,3A画质,还能实时交互
2024-11-21 12:30:33
Midjourney入局视频生成,图像模型V7不断更新,视觉卷王实锤了
2025-06-17 15:24:04
每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率
2025-06-12 14:32:49
腾讯版Sora发布即开源!130亿参数,模型权重、推理代码全开放
2024-12-03 16:22:39
OpenAI给不了的,DeepMind给,Sora联合负责人跳槽后开组新团队
2025-01-07 13:03:56
AI 视频新王全球爆火,威尔·斯密斯终于可以好好吃面(附大量实测演示)
2025-05-24 13:10:24
中山大学梁小丹团队论文:让视频生成从「看起来真实」到「物理上正确」丨CVPR 2026
2026-03-30 14:53:39
OpenAI Sora 应用限时开放:美、加、日、韩用户无需邀请码即可进入
2025-11-02 15:28:45
24小时热文
更多
扫一扫体验小程序