1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

谷歌推出史上最大视觉语言数据集WebLI-100B,包含1000亿图像-文本对,比前记录扩大10倍。此数据集证明了数据Scaling Law仍有潜力。它在多元文化和多语言方面表现突出,有助于构建更全面的多模态大模型。

研究团队由谷歌DeepMind的Xiao Wang、Ibrahim Alabdulmohsin及ViT核心作者翟晓华主导。翟晓华即将加入OpenAI苏黎世实验室。

研究团队从网络上搜集了1000亿图像-文本对,初步清理有害内容,使用CLIP模型筛选高质量数据,并调整阈值重新筛选数据集。为评估多语言能力,他们利用网页语言标签确定数据集中的语言分布。

实验中,研究人员从1000亿数据集中抽取1%和10%,创建10亿和100亿规模数据集,并对低资源语言进行上采样。他们使用SigLIP模型在不同规模数据集上进行视觉语言预训练,发现更大规模数据集能更好地捕捉细节。

评估显示,1000亿数据集在多语言能力和公平性任务上显著提升,但在传统基准测试上提升有限。数据过滤可能影响某些文化背景的代表性,而调整低资源语言比例可显著提高模型性能。

Xiao Wang本科毕业于南京大学,硕士毕业于北京大学,曾在IBM和网易工作,现为谷歌高级软件工程师。翟晓华也本科毕业于南京大学,后在苏黎世加入谷歌,参与了ViT项目,近期被OpenAI挖走。

原文链接
本文链接:https://kx.umi6.com/article/13325.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
每帧都是AI实时生成的,全球首款AI游戏问世了!
2024-11-05 15:45:38
空间智能新进展:教机器人组装宜家家具,首次实现操作步骤与真实视频对齐 | NeurIPS
2024-11-26 21:39:56
多亏Transformer,Mamba更强了!仅用1%计算量达新SOTA
2024-08-22 17:19:58
24小时热文
更多
扫一扫体验小程序