谷歌推出史上最大视觉语言数据集WebLI-100B,包含1000亿图像-文本对,比前记录扩大10倍。此数据集证明了数据Scaling Law仍有潜力。它在多元文化和多语言方面表现突出,有助于构建更全面的多模态大模型。
研究团队由谷歌DeepMind的Xiao Wang、Ibrahim Alabdulmohsin及ViT核心作者翟晓华主导。翟晓华即将加入OpenAI苏黎世实验室。
研究团队从网络上搜集了1000亿图像-文本对,初步清理有害内容,使用CLIP模型筛选高质量数据,并调整阈值重新筛选数据集。为评估多语言能力,他们利用网页语言标签确定数据集中的语言分布。
实验中,研究人员从1000亿数据集中抽取1%和10%,创建10亿和100亿规模数据集,并对低资源语言进行上采样。他们使用SigLIP模型在不同规模数据集上进行视觉语言预训练,发现更大规模数据集能更好地捕捉细节。
评估显示,1000亿数据集在多语言能力和公平性任务上显著提升,但在传统基准测试上提升有限。数据过滤可能影响某些文化背景的代表性,而调整低资源语言比例可显著提高模型性能。
Xiao Wang本科毕业于南京大学,硕士毕业于北京大学,曾在IBM和网易工作,现为谷歌高级软件工程师。翟晓华也本科毕业于南京大学,后在苏黎世加入谷歌,参与了ViT项目,近期被OpenAI挖走。
原文链接
本文链接:https://kx.umi6.com/article/13325.html
转载请注明文章出处
相关推荐
.png)
换一换
o1方法性能无上限!姚班马腾宇等数学证明:推理token够多,就能解决任意问题
2024-09-17 14:52:32
苹果研究破解 AI“英语口音”难题,提升多语言自然性
2025-05-17 07:02:43
拯救Transformer推理能力,DeepMind新研究TransNAR:给模型嵌入“算法推理大脑”
2024-06-17 17:06:21
一位AI从业者的十年
2024-12-05 14:02:03
傅利叶开源全尺寸人形机器人数据集,首批上线超3万条真机数据
2025-03-17 12:36:41
空间智能新进展:教机器人组装宜家家具,首次实现操作步骤与真实视频对齐 | NeurIPS
2024-11-26 21:39:56
AI怎样模仿人类大脑的注意力机制?
2025-05-17 11:04:36
微软清华改进Transformer:用降噪耳机原理升级注意力,一作在线答疑
2024-11-05 14:35:47
谷歌新架构一战成名,打破Transformer记忆瓶颈,姚班校友钟沛林新作
2025-01-14 15:12:54
一个「always」站在大模型技术C位的传奇男子
2025-05-10 12:04:35
多亏Transformer,Mamba更强了!仅用1%计算量达新SOTA
2024-08-22 17:19:58
LLM 的“母语”是什么?
2024-06-03 07:50:10
速度秒杀GPT们10倍,国外的DeepSeek时刻来了?
2025-03-14 08:00:03
539 文章
170233 浏览
24小时热文
更多

-
2025-09-08 22:04:30
-
2025-09-08 21:06:20
-
2025-09-08 21:05:04