MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law
MiniMax海螺视频团队近日开源了一项重要成果,解决了困扰行业已久的难题:为什么增加视觉分词器(Tokenizer)的算力投入,却无法显著提升生成模型的效果?
当前主流的图像/视频生成模型采用“两阶段”框架:第一阶段使用视觉分词器(如VAE)将图像压缩为潜在表征;第二阶段由生成模型(如DiT)在潜在空间中还原生成。然而,尽管模型参数和算力不断增加,生成效果却往往不尽如人意。问题的关键在于视觉分词器。
传统Tokenizer专注于像素级重建,追求精准复刻原始图像,但这种做法容易忽视高层语义和整体结构。团队将其定义为“预训练缩放问题”:更好的重建精度并不等同于更高的生成质量。实验表明,随着算力投入增加,传统Tokenizer的生成性能反而趋于饱和甚至下降。
针对这一问题,团队提出了全新的视觉分词器预训练框架——Visual Tokenizer Pre-training (VTP)。VTP的核心是从“像素级重建”转向“理解力驱动的通用表征学习”,通过联合优化三种目标实现突破:
- 图文对比学习:利用图像-文本配对数据,让模型学习语义对齐的潜在表征。
- 自监督学习:结合掩码图像建模(MIM)和自蒸馏方法,强化模型对空间结构和视觉常识的理解。
- 重建目标:保留必要的底层视觉细节,确保潜在空间的信息完整性。
VTP的设计原则是融合所有有效的表征学习方法,构建一个兼具语义理解和生成友好的视觉分词器。实验结果表明,VTP不仅在ImageNet零样本分类准确率上达到78.2%,超越了CLIP的75.5%,还在生成任务中表现出色,gFID低至2.81,远超传统方法。
更重要的是,VTP首次展示了视觉分词器的Scaling Law:生成性能可以随预训练中的计算量、参数量和数据规模有效增长。实验显示,在不改变下游模型配置的情况下,仅通过放大Tokenizer的预训练规模,即可带来65.8%的性能提升,且提升曲线尚未触顶。
这一发现改变了Tokenizer的传统角色,证明其不仅是“前置模块”,更是提升生成系统性能的关键环节。VTP的开源为行业提供了一条新路径:在主模型之外,Tokenizer同样值得长期投入,并具备明确的扩展回报。
论文与代码已公开,感兴趣的读者可访问以下链接:
- 代码:https://github.com/MiniMax-AI/VTP
- 论文:https://arxiv.org/abs/2512.13687v1
- 模型:https://huggingface.co/collections/MiniMaxAI/vtp
-
2025-12-22 14:48:11 -
2025-12-22 14:47:07 -
2025-12-22 13:45:27