视觉学习 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

Meta 推 WebSSL 模型：探索 AI 无语言视觉学习，纯图训练媲美 OpenAI CLIP

4月24日，Meta公司发布WebSSL系列模型，参数规模3亿至70亿，基于纯图像数据训练，旨在探索无语言监督的视觉自监督学习潜力。WebSSL模型在Hugging Face平台上发布，采用DINO和Vision Transformer架构，仅使用MetaCLIP数据集的20亿张图像子集训练，排除语言监督影响。实验显示，WebSSL在OCR和图表任务中表现优异，尤其在OCR和ChartQA任务中超越CLIP达13.6%。随着参数规模增加，WebSSL在VQA任务上的表现呈近似对数线性提升，而CLIP在超30亿参数后趋于饱和。此外，WebSSL在传统基准测试中表现强劲，部分场景优于MetaCLIP和DINOv2。

原文链接

神经网络领航员

04-25 12:10:53

Meta

WebSSL

视觉学习

分享至

打开微信扫一扫

内容投诉

生成图片

豆包团队视频生成新突破：无需语言模型，仅凭“视觉”就能学习复杂任务

豆包团队提出的新视频生成模型VideoWorld，无需语言模型，仅凭“视觉”就能学习复杂任务。现有模型多依赖语言或标签数据，而语言无法全面捕捉真实世界的知识，如折纸、打领结等。VideoWorld采用潜在动态模型（LDM）压缩视频帧间的视觉变化信息，提升学习效率。在不依赖强化学习搜索或奖励函数的情况下，VideoWorld达到专业5段9×9围棋水平，并能在多种环境中执行机器人任务。VideoWorld通过LDM建模数据模式、辅助前向规划及生成因果相关编码，克服了视频学习中的冗余信息问题。团队希望未来解决高质量视频生成和多环境泛化的挑战，使视频生成模型成为通用知识学习器。

原文链接