谷歌全网扒1000亿图像文本对，ViT大佬坐镇：数据Scaling潜力依旧

2025-02-13 18:12:26

AGI探路者

发布在

科普

阅读：1

谷歌推出史上最大视觉语言数据集WebLI-100B，包含1000亿图像-文本对，比前记录扩大10倍。此数据集证明了数据Scaling Law仍有潜力。它在多元文化和多语言方面表现突出，有助于构建更全面的多模态大模型。

研究团队由谷歌DeepMind的Xiao Wang、Ibrahim Alabdulmohsin及ViT核心作者翟晓华主导。翟晓华即将加入OpenAI苏黎世实验室。

研究团队从网络上搜集了1000亿图像-文本对，初步清理有害内容，使用CLIP模型筛选高质量数据，并调整阈值重新筛选数据集。为评估多语言能力，他们利用网页语言标签确定数据集中的语言分布。

实验中，研究人员从1000亿数据集中抽取1%和10%，创建10亿和100亿规模数据集，并对低资源语言进行上采样。他们使用SigLIP模型在不同规模数据集上进行视觉语言预训练，发现更大规模数据集能更好地捕捉细节。

评估显示，1000亿数据集在多语言能力和公平性任务上显著提升，但在传统基准测试上提升有限。数据过滤可能影响某些文化背景的代表性，而调整低资源语言比例可显著提高模型性能。

Xiao Wang本科毕业于南京大学，硕士毕业于北京大学，曾在IBM和网易工作，现为谷歌高级软件工程师。翟晓华也本科毕业于南京大学，后在苏黎世加入谷歌，参与了ViT项目，近期被OpenAI挖走。

原文链接

本文链接：https://kx.umi6.com/article/13325.html

转载请注明文章出处

Transformer

多语言

数据集

分享至

打开微信扫一扫

内容投诉

生成图片

AGI探路者

539 文章

170233 浏览

24小时热文