1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队近日开源了一项重要成果,解决了困扰行业已久的难题:为什么增加视觉分词器(Tokenizer)的算力投入,却无法显著提升生成模型的效果?

当前主流的图像/视频生成模型采用“两阶段”框架:第一阶段使用视觉分词器(如VAE)将图像压缩为潜在表征;第二阶段由生成模型(如DiT)在潜在空间中还原生成。然而,尽管模型参数和算力不断增加,生成效果却往往不尽如人意。问题的关键在于视觉分词器。

传统Tokenizer专注于像素级重建,追求精准复刻原始图像,但这种做法容易忽视高层语义和整体结构。团队将其定义为“预训练缩放问题”:更好的重建精度并不等同于更高的生成质量。实验表明,随着算力投入增加,传统Tokenizer的生成性能反而趋于饱和甚至下降。

针对这一问题,团队提出了全新的视觉分词器预训练框架——Visual Tokenizer Pre-training (VTP)。VTP的核心是从“像素级重建”转向“理解力驱动的通用表征学习”,通过联合优化三种目标实现突破:

  1. 图文对比学习:利用图像-文本配对数据,让模型学习语义对齐的潜在表征。
  2. 自监督学习:结合掩码图像建模(MIM)和自蒸馏方法,强化模型对空间结构和视觉常识的理解。
  3. 重建目标:保留必要的底层视觉细节,确保潜在空间的信息完整性。

VTP的设计原则是融合所有有效的表征学习方法,构建一个兼具语义理解和生成友好的视觉分词器。实验结果表明,VTP不仅在ImageNet零样本分类准确率上达到78.2%,超越了CLIP的75.5%,还在生成任务中表现出色,gFID低至2.81,远超传统方法。

更重要的是,VTP首次展示了视觉分词器的Scaling Law:生成性能可以随预训练中的计算量、参数量和数据规模有效增长。实验显示,在不改变下游模型配置的情况下,仅通过放大Tokenizer的预训练规模,即可带来65.8%的性能提升,且提升曲线尚未触顶。

这一发现改变了Tokenizer的传统角色,证明其不仅是“前置模块”,更是提升生成系统性能的关键环节。VTP的开源为行业提供了一条新路径:在主模型之外,Tokenizer同样值得长期投入,并具备明确的扩展回报。

论文与代码已公开,感兴趣的读者可访问以下链接: - 代码:https://github.com/MiniMax-AI/VTP
- 论文:https://arxiv.org/abs/2512.13687v1
- 模型:https://huggingface.co/collections/MiniMaxAI/vtp

原文链接
本文链接:https://kx.umi6.com/article/30615.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
ICLR 2025:顶尖科学家最关心的 AI 趋势有哪些?丨GAIR Live
2025-04-28 11:48:41
今日最热论文:Scaling Law终结,量化也不管用,AI大佬齐刷刷附议
2024-11-13 15:39:06
OpenAI附议Ilya预训练终结!“但Scaling Law还没死”
2024-12-16 11:32:52
现在的大模型现状,就是豪赌
2025-01-24 08:35:12
Scaling Law终结,量化也不管用,AI大佬都在审视这篇论文
2024-11-13 16:46:53
张宏江消除“Scaling Law放缓”恐惧,直言未来将迎来“自主智能”的世界
2024-12-07 17:49:03
开源Llama版o1来了,3B小模型反超80B,逆向工程复现OpenAI新Scaling Law
2024-12-17 13:02:03
对话智谱CEO张鹏:大家对大模型期待过高,Scaling Law还有很大增长空间
2024-11-29 13:53:52
AI“规模暴力”真的失效了吗?
2024-11-19 13:45:24
钛动科技陈德品:Scaling Law在营销应用中也适用,AIGC内容正在催生爆款 | MEET2025
2024-12-26 12:31:35
Scaling Law再遭质疑:“退化式AI”竟成终局?
2025-08-04 21:03:25
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026
2025-12-21 10:35:20
GPT-5被曝不及预期,OpenAI员工:没什么科学突破了,只需要工程
2024-11-11 16:48:08
24小时热文
更多
扫一扫体验小程序