1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队近日开源了一项重要成果,解决了困扰行业已久的难题:为什么增加视觉分词器(Tokenizer)的算力投入,却无法显著提升生成模型的效果?

当前主流的图像/视频生成模型采用“两阶段”框架:第一阶段使用视觉分词器(如VAE)将图像压缩为潜在表征;第二阶段由生成模型(如DiT)在潜在空间中还原生成。然而,尽管模型参数和算力不断增加,生成效果却往往不尽如人意。问题的关键在于视觉分词器。

传统Tokenizer专注于像素级重建,追求精准复刻原始图像,但这种做法容易忽视高层语义和整体结构。团队将其定义为“预训练缩放问题”:更好的重建精度并不等同于更高的生成质量。实验表明,随着算力投入增加,传统Tokenizer的生成性能反而趋于饱和甚至下降。

针对这一问题,团队提出了全新的视觉分词器预训练框架——Visual Tokenizer Pre-training (VTP)。VTP的核心是从“像素级重建”转向“理解力驱动的通用表征学习”,通过联合优化三种目标实现突破:

  1. 图文对比学习:利用图像-文本配对数据,让模型学习语义对齐的潜在表征。
  2. 自监督学习:结合掩码图像建模(MIM)和自蒸馏方法,强化模型对空间结构和视觉常识的理解。
  3. 重建目标:保留必要的底层视觉细节,确保潜在空间的信息完整性。

VTP的设计原则是融合所有有效的表征学习方法,构建一个兼具语义理解和生成友好的视觉分词器。实验结果表明,VTP不仅在ImageNet零样本分类准确率上达到78.2%,超越了CLIP的75.5%,还在生成任务中表现出色,gFID低至2.81,远超传统方法。

更重要的是,VTP首次展示了视觉分词器的Scaling Law:生成性能可以随预训练中的计算量、参数量和数据规模有效增长。实验显示,在不改变下游模型配置的情况下,仅通过放大Tokenizer的预训练规模,即可带来65.8%的性能提升,且提升曲线尚未触顶。

这一发现改变了Tokenizer的传统角色,证明其不仅是“前置模块”,更是提升生成系统性能的关键环节。VTP的开源为行业提供了一条新路径:在主模型之外,Tokenizer同样值得长期投入,并具备明确的扩展回报。

论文与代码已公开,感兴趣的读者可访问以下链接: - 代码:https://github.com/MiniMax-AI/VTP
- 论文:https://arxiv.org/abs/2512.13687v1
- 模型:https://huggingface.co/collections/MiniMaxAI/vtp

原文链接
本文链接:https://kx.umi6.com/article/30615.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026
2025-12-21 10:35:20
今日最热论文:Scaling Law终结,量化也不管用,AI大佬齐刷刷附议
2024-11-13 15:39:06
对话智谱CEO张鹏:大家对大模型期待过高,Scaling Law还有很大增长空间
2024-11-29 13:53:52
微软CTO:AI大模型的“Scaling Law”还能走多远?
2024-07-12 07:50:49
四位大模型创业者聊 AGI、Scaling Law 和价格战
2024-06-16 10:11:05
Scaling Law首次在自动驾驶赛道被验证!小鹏汽车CVPR演讲详解
2025-06-16 14:08:23
Scaling Law终结,量化也不管用,AI大佬都在审视这篇论文
2024-11-13 16:46:53
Scaling Law陷入困局,强化学习才是全村的希望?
2024-09-12 14:51:17
Scaling Law百度最早提出!OpenAI/Claude受它启发,致谢中有Ilya
2024-11-28 09:19:46
阶跃星辰CEO姜大昕:Scaling Law中短期内依然处于陡峭曲线
2024-07-06 19:07:02
OpenAI附议Ilya预训练终结!“但Scaling Law还没死”
2024-12-16 11:32:52
Scaling Law触礁「数据墙」?Epoch AI发文预测LLM到2028年耗尽所有文本数据
2024-06-15 13:49:34
智源王仲远:多模态大模型对产业更加重要,得多模态大模型得天下
2024-12-31 12:40:05
24小时热文
更多
扫一扫体验小程序