4月24日,Meta公司发布WebSSL系列模型,参数规模3亿至70亿,基于纯图像数据训练,旨在探索无语言监督的视觉自监督学习潜力。WebSSL模型在Hugging Face平台上发布,采用DINO和Vision Transformer架构,仅使用MetaCLIP数据集的20亿张图像子集训练,排除语言监督影响。实验显示,WebSSL在OCR和图表任务中表现优异,尤其在OCR和ChartQA任务中超越CLIP达13.6%。随着参数规模增加,WebSSL在VQA任务上的表现呈近似对数线性提升,而CLIP在超30亿参数后趋于饱和。此外,WebSSL在传统基准测试中表现强劲,部分场景优于MetaCLIP和DINOv2。
原文链接
本文链接:https://kx.umi6.com/article/17738.html
转载请注明文章出处
相关推荐
.png)
换一换
逮住OpenAI“猛薅”!Meta据悉又挖走四位知名研究人员
2025-06-29 03:26:22
消息称 Meta 豪掷千万美元年薪争夺顶尖 AI 人才,扎克伯格亲自下场招聘
2025-06-16 12:07:39
OpenAI反挖四位特斯拉、xAI、Meta高级工程师
2025-07-09 13:06:54
427 文章
55903 浏览
24小时热文
更多

-
2025-07-21 16:21:09
-
2025-07-21 16:20:01
-
2025-07-21 16:18:51