1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队近日开源了一项重要成果,解决了困扰行业已久的难题:为什么增加视觉分词器(Tokenizer)的算力投入,却无法显著提升生成模型的效果?

当前主流的图像/视频生成模型采用“两阶段”框架:第一阶段使用视觉分词器(如VAE)将图像压缩为潜在表征;第二阶段由生成模型(如DiT)在潜在空间中还原生成。然而,尽管模型参数和算力不断增加,生成效果却往往不尽如人意。问题的关键在于视觉分词器。

传统Tokenizer专注于像素级重建,追求精准复刻原始图像,但这种做法容易忽视高层语义和整体结构。团队将其定义为“预训练缩放问题”:更好的重建精度并不等同于更高的生成质量。实验表明,随着算力投入增加,传统Tokenizer的生成性能反而趋于饱和甚至下降。

针对这一问题,团队提出了全新的视觉分词器预训练框架——Visual Tokenizer Pre-training (VTP)。VTP的核心是从“像素级重建”转向“理解力驱动的通用表征学习”,通过联合优化三种目标实现突破:

  1. 图文对比学习:利用图像-文本配对数据,让模型学习语义对齐的潜在表征。
  2. 自监督学习:结合掩码图像建模(MIM)和自蒸馏方法,强化模型对空间结构和视觉常识的理解。
  3. 重建目标:保留必要的底层视觉细节,确保潜在空间的信息完整性。

VTP的设计原则是融合所有有效的表征学习方法,构建一个兼具语义理解和生成友好的视觉分词器。实验结果表明,VTP不仅在ImageNet零样本分类准确率上达到78.2%,超越了CLIP的75.5%,还在生成任务中表现出色,gFID低至2.81,远超传统方法。

更重要的是,VTP首次展示了视觉分词器的Scaling Law:生成性能可以随预训练中的计算量、参数量和数据规模有效增长。实验显示,在不改变下游模型配置的情况下,仅通过放大Tokenizer的预训练规模,即可带来65.8%的性能提升,且提升曲线尚未触顶。

这一发现改变了Tokenizer的传统角色,证明其不仅是“前置模块”,更是提升生成系统性能的关键环节。VTP的开源为行业提供了一条新路径:在主模型之外,Tokenizer同样值得长期投入,并具备明确的扩展回报。

论文与代码已公开,感兴趣的读者可访问以下链接: - 代码:https://github.com/MiniMax-AI/VTP
- 论文:https://arxiv.org/abs/2512.13687v1
- 模型:https://huggingface.co/collections/MiniMaxAI/vtp

原文链接
本文链接:https://kx.umi6.com/article/30615.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
现在的大模型现状,就是豪赌
2025-01-24 08:35:12
苹果发现模型蒸馏Scaling Law!教师模型并非越强越好
2025-02-14 16:41:33
Scaling Law触礁「数据墙」?Epoch AI发文预测LLM到2028年耗尽所有文本数据
2024-06-15 13:49:34
百度最早发现大模型中的scaling law?不用怀疑,对中国AI要有自信
2025-01-02 11:16:19
张宏江消除“Scaling Law放缓”恐惧,直言未来将迎来“自主智能”的世界
2024-12-07 17:49:03
阶跃星辰CEO姜大昕:Scaling Law中短期内依然处于陡峭曲线
2024-07-06 19:07:02
开源Llama版o1来了,3B小模型反超80B,逆向工程复现OpenAI新Scaling Law
2024-12-17 13:02:03
李开复周志华纵论AI大模型,商汤徐立倡议「打脸时刻」,万字梳理MEET’25大咖激辩,320万观众同见证
2024-12-12 20:03:19
反转,Claude 3.5超大杯没有训练失败
2024-12-13 18:28:51
微软CTO:AI大模型的“Scaling Law”还能走多远?
2024-07-12 07:50:49
OpenAI附议Ilya预训练终结!“但Scaling Law还没死”
2024-12-16 11:32:52
深度解读:AI产业10大分歧
2024-08-25 13:19:51
技术进展放缓,是普通人AI革命的开始
2024-12-25 13:03:33
24小时热文
更多
扫一扫体验小程序