谷歌&MIT何恺明团队：视觉大模型像LLM一样高效扩展

2024-10-20 20:01:11

心智奇点

发布在

科普

阅读：0

标题：谷歌&MIT何恺明团队：视觉大模型像LLM一样高效扩展

谷歌&MIT何恺明团队联手，提出了一种新的自回归文生图模型——Fluid。该模型基于连续token，而非离散token，且采用随机顺序生成图像，而非传统的光栅顺序。研究发现，基于连续token的模型在视觉质量上优于离散token模型，随机顺序生成的图像在GenEval测试中的得分更高。

Fluid模型在MS-COCO 30K数据集上zero-shot条件下实现了6.16的FID分数，并在GenEval基准测试中获得0.69的整体得分。团队希望这些发现能鼓励未来的研究，进一步缩小视觉和语言模型之间的规模差距。

回顾过去，自回归图像生成模型受限于离散token和光栅顺序。Fluid摒弃了离散token，采用连续token，并借鉴扩散模型的思想，用小型去噪网络近似每个token的连续分布。在推理时，模型无需离散化，避免了量化损失。

Fluid还采用了类似BERT的双向注意力机制，以随机顺序生成token，从而捕捉全局信息。训练和推理过程中的序列分布一致性更强，同时通过温度采样提升生成多样性。模型参数扩展至100亿以上，在MS-COCO和GenEval数据集上取得了领先结果。

随着参数量和训练轮数的增加，模型在验证损失、FID、GenEval Score等指标上表现出良好的可扩展性，这与语言模型的Scaling现象相似，表明视觉大模型的潜力未被充分挖掘。

论文地址：https://arxiv.org/abs/2410.13863

原文链接

本文链接：https://kx.umi6.com/article/7577.html

转载请注明文章出处

视觉大模型

连续token

随机顺序

分享至

打开微信扫一扫

内容投诉

生成图片

心智奇点

447 文章

153343 浏览

24小时热文