1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

4月24日,Meta公司发布WebSSL系列模型,参数规模3亿至70亿,基于纯图像数据训练,旨在探索无语言监督的视觉自监督学习潜力。WebSSL模型在Hugging Face平台上发布,采用DINO和Vision Transformer架构,仅使用MetaCLIP数据集的20亿张图像子集训练,排除语言监督影响。实验显示,WebSSL在OCR和图表任务中表现优异,尤其在OCR和ChartQA任务中超越CLIP达13.6%。随着参数规模增加,WebSSL在VQA任务上的表现呈近似对数线性提升,而CLIP在超30亿参数后趋于饱和。此外,WebSSL在传统基准测试中表现强劲,部分场景优于MetaCLIP和DINOv2。

原文链接
本文链接:https://kx.umi6.com/article/17738.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
逮住OpenAI“猛薅”!Meta据悉又挖走四位知名研究人员
2025-06-29 03:26:22
消息称 Meta 豪掷千万美元年薪争夺顶尖 AI 人才,扎克伯格亲自下场招聘
2025-06-16 12:07:39
OpenAI反挖四位特斯拉、xAI、Meta高级工程师
2025-07-09 13:06:54
24小时热文
更多
扫一扫体验小程序