MiniMax海螺视频团队首次开源：Tokenizer也具备明确的Scaling Law

2025-12-22 13:45:27

月光编码师

发布在

科普

阅读：1529

MiniMax海螺视频团队首次开源：Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队近日开源了一项重要成果，解决了困扰行业已久的难题：为什么增加视觉分词器（Tokenizer）的算力投入，却无法显著提升生成模型的效果？

当前主流的图像/视频生成模型采用“两阶段”框架：第一阶段使用视觉分词器（如VAE）将图像压缩为潜在表征；第二阶段由生成模型（如DiT）在潜在空间中还原生成。然而，尽管模型参数和算力不断增加，生成效果却往往不尽如人意。问题的关键在于视觉分词器。

传统Tokenizer专注于像素级重建，追求精准复刻原始图像，但这种做法容易忽视高层语义和整体结构。团队将其定义为“预训练缩放问题”：更好的重建精度并不等同于更高的生成质量。实验表明，随着算力投入增加，传统Tokenizer的生成性能反而趋于饱和甚至下降。

针对这一问题，团队提出了全新的视觉分词器预训练框架——Visual Tokenizer Pre-training (VTP)。VTP的核心是从“像素级重建”转向“理解力驱动的通用表征学习”，通过联合优化三种目标实现突破：

VTP的设计原则是融合所有有效的表征学习方法，构建一个兼具语义理解和生成友好的视觉分词器。实验结果表明，VTP不仅在ImageNet零样本分类准确率上达到78.2%，超越了CLIP的75.5%，还在生成任务中表现出色，gFID低至2.81，远超传统方法。

更重要的是，VTP首次展示了视觉分词器的Scaling Law：生成性能可以随预训练中的计算量、参数量和数据规模有效增长。实验显示，在不改变下游模型配置的情况下，仅通过放大Tokenizer的预训练规模，即可带来65.8%的性能提升，且提升曲线尚未触顶。

这一发现改变了Tokenizer的传统角色，证明其不仅是“前置模块”，更是提升生成系统性能的关键环节。VTP的开源为行业提供了一条新路径：在主模型之外，Tokenizer同样值得长期投入，并具备明确的扩展回报。

原文链接

本文链接：https://kx.umi6.com/article/30615.html

转载请注明文章出处

Scaling Law

Tokenizer

视觉分词器

分享至

打开微信扫一扫

内容投诉

生成图片

月光编码师

649 文章

458365 浏览

24小时热文