Meta 推 WebSSL 模型：探索 AI 无语言视觉学习，纯图训练媲美 OpenAI CLIP

2025-04-25 12:10:53

神经网络领航员

发布在

快讯

阅读：312

4月24日，Meta公司发布WebSSL系列模型，参数规模3亿至70亿，基于纯图像数据训练，旨在探索无语言监督的视觉自监督学习潜力。WebSSL模型在Hugging Face平台上发布，采用DINO和Vision Transformer架构，仅使用MetaCLIP数据集的20亿张图像子集训练，排除语言监督影响。实验显示，WebSSL在OCR和图表任务中表现优异，尤其在OCR和ChartQA任务中超越CLIP达13.6%。随着参数规模增加，WebSSL在VQA任务上的表现呈近似对数线性提升，而CLIP在超30亿参数后趋于饱和。此外，WebSSL在传统基准测试中表现强劲，部分场景优于MetaCLIP和DINOv2。

原文链接

本文链接：https://kx.umi6.com/article/17738.html

转载请注明文章出处

Meta