标题:谷歌&MIT何恺明团队:视觉大模型像LLM一样高效扩展
谷歌&MIT何恺明团队联手,提出了一种新的自回归文生图模型——Fluid。该模型基于连续token,而非离散token,且采用随机顺序生成图像,而非传统的光栅顺序。研究发现,基于连续token的模型在视觉质量上优于离散token模型,随机顺序生成的图像在GenEval测试中的得分更高。
Fluid模型在MS-COCO 30K数据集上zero-shot条件下实现了6.16的FID分数,并在GenEval基准测试中获得0.69的整体得分。团队希望这些发现能鼓励未来的研究,进一步缩小视觉和语言模型之间的规模差距。
回顾过去,自回归图像生成模型受限于离散token和光栅顺序。Fluid摒弃了离散token,采用连续token,并借鉴扩散模型的思想,用小型去噪网络近似每个token的连续分布。在推理时,模型无需离散化,避免了量化损失。
Fluid还采用了类似BERT的双向注意力机制,以随机顺序生成token,从而捕捉全局信息。训练和推理过程中的序列分布一致性更强,同时通过温度采样提升生成多样性。模型参数扩展至100亿以上,在MS-COCO和GenEval数据集上取得了领先结果。
随着参数量和训练轮数的增加,模型在验证损失、FID、GenEval Score等指标上表现出良好的可扩展性,这与语言模型的Scaling现象相似,表明视觉大模型的潜力未被充分挖掘。
论文地址:https://arxiv.org/abs/2410.13863
原文链接
本文链接:https://kx.umi6.com/article/7577.html
转载请注明文章出处
相关推荐
换一换
LeCun 10亿押注的方向,全球领先视觉大模型团队早已布局
2026-06-04 13:07:00
字节视觉大模型负责人杨建朝今日内部官宣休息,周畅接任
2025-07-17 17:28:24
阿里开源全新图像模型Qwen-Image-Layered,可实现PS级图层精准编辑生成
2025-12-22 16:50:23
加码视觉大模型领域 安凯微拟2000万元增资视启未来 软硬件协同成发展重点
2025-09-19 21:20:51
无需人类或GPT-4打标签!南大&旷视研究院无监督范式大幅降低视觉大模型对齐成本
2024-06-23 12:49:46
IDEA研究院发布DINO-X目标检测视觉大模型
2024-11-22 20:10:15
CVPR 2026 几何智能研究盘点:从看见形状,到理解运动与交互
2026-06-08 11:25:46
Gartner 高挺:机器人产业迈入 GPT-2 发展周期,企业落地切忌盲目布局人形机器人
2026-06-05 10:57:10
100亿砸向人形,不如先让10万台机器狗走进家庭
2026-06-05 16:04:29
互联网历史上首次!机器人流量首度超越人类:占比57.5%
2026-06-07 14:36:36
有余凯不投的地平线离职创业员工吗?
2026-06-07 21:50:41
UT Austin朱玉可:人形机器人的数据困局怎么破?答案藏在「数据海绵」里 |ICRA 2026
2026-06-04 16:12:27
太讽刺了 号称最注重AI安全的Anthropic曝出用户隐私泄露问题
2026-06-07 14:42:06
687 文章
601517 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41