1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队近日开源了一项重要成果,解决了困扰行业已久的难题:为什么增加视觉分词器(Tokenizer)的算力投入,却无法显著提升生成模型的效果?

当前主流的图像/视频生成模型采用“两阶段”框架:第一阶段使用视觉分词器(如VAE)将图像压缩为潜在表征;第二阶段由生成模型(如DiT)在潜在空间中还原生成。然而,尽管模型参数和算力不断增加,生成效果却往往不尽如人意。问题的关键在于视觉分词器。

传统Tokenizer专注于像素级重建,追求精准复刻原始图像,但这种做法容易忽视高层语义和整体结构。团队将其定义为“预训练缩放问题”:更好的重建精度并不等同于更高的生成质量。实验表明,随着算力投入增加,传统Tokenizer的生成性能反而趋于饱和甚至下降。

针对这一问题,团队提出了全新的视觉分词器预训练框架——Visual Tokenizer Pre-training (VTP)。VTP的核心是从“像素级重建”转向“理解力驱动的通用表征学习”,通过联合优化三种目标实现突破:

  1. 图文对比学习:利用图像-文本配对数据,让模型学习语义对齐的潜在表征。
  2. 自监督学习:结合掩码图像建模(MIM)和自蒸馏方法,强化模型对空间结构和视觉常识的理解。
  3. 重建目标:保留必要的底层视觉细节,确保潜在空间的信息完整性。

VTP的设计原则是融合所有有效的表征学习方法,构建一个兼具语义理解和生成友好的视觉分词器。实验结果表明,VTP不仅在ImageNet零样本分类准确率上达到78.2%,超越了CLIP的75.5%,还在生成任务中表现出色,gFID低至2.81,远超传统方法。

更重要的是,VTP首次展示了视觉分词器的Scaling Law:生成性能可以随预训练中的计算量、参数量和数据规模有效增长。实验显示,在不改变下游模型配置的情况下,仅通过放大Tokenizer的预训练规模,即可带来65.8%的性能提升,且提升曲线尚未触顶。

这一发现改变了Tokenizer的传统角色,证明其不仅是“前置模块”,更是提升生成系统性能的关键环节。VTP的开源为行业提供了一条新路径:在主模型之外,Tokenizer同样值得长期投入,并具备明确的扩展回报。

论文与代码已公开,感兴趣的读者可访问以下链接: - 代码:https://github.com/MiniMax-AI/VTP
- 论文:https://arxiv.org/abs/2512.13687v1
- 模型:https://huggingface.co/collections/MiniMaxAI/vtp

原文链接
本文链接:https://kx.umi6.com/article/30615.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
GPT-5被曝不及预期,OpenAI员工:没什么科学突破了,只需要工程
2024-11-11 16:48:08
第一个被人类骗钱的AI傻了,近5万美元不翼而飞!
2024-12-03 16:24:52
华泰证券:长期看好AI算力需求的持续增长
2025-07-28 08:07:00
对话智谱CEO张鹏:大家对大模型期待过高,Scaling Law还有很大增长空间
2024-11-29 13:53:52
视觉模型智能涌现后, Scaling Law 不会到头
2024-11-22 12:00:19
OpenAI大改下代大模型方向,scaling law撞墙?AI社区炸锅了
2024-11-13 14:37:38
Scaling Law不适用于投资行业?朱啸虎在2024WAIC再度“语出惊人”
2024-07-08 08:32:08
李开复周志华纵论AI大模型,商汤徐立倡议「打脸时刻」,万字梳理MEET’25大咖激辩,320万观众同见证
2024-12-12 20:03:19
阶跃星辰CEO姜大昕:Scaling Law中短期内依然处于陡峭曲线
2024-07-06 19:07:02
Scaling Law只适用于AI大模型,不适用于风投?
2024-07-08 14:04:49
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026
2025-12-21 10:35:20
OpenAI附议Ilya预训练终结!“但Scaling Law还没死”
2024-12-16 11:32:52
百度最早发现大模型中的scaling law?不用怀疑,对中国AI要有自信
2025-01-02 11:16:19
24小时热文
更多
扫一扫体验小程序