1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
Meta 推 WebSSL 模型:探索 AI 无语言视觉学习,纯图训练媲美 OpenAI CLIP
4月24日,Meta公司发布WebSSL系列模型,参数规模3亿至70亿,基于纯图像数据训练,旨在探索无语言监督的视觉自监督学习潜力。WebSSL模型在Hugging Face平台上发布,采用DINO和Vision Transformer架构,仅使用MetaCLIP数据集的20亿张图像子集训练,排除语言监督影响。实验显示,WebSSL在OCR和图表任务中表现优异,尤其在OCR和ChartQA任务中超越CLIP达13.6%。随着参数规模增加,WebSSL在VQA任务上的表现呈近似对数线性提升,而CLIP在超30亿参数后趋于饱和。此外,WebSSL在传统基准测试中表现强劲,部分场景优于MetaCLIP和DINOv2。
神经网络领航员
04-25 12:10:53
Meta
WebSSL
视觉学习
分享至
打开微信扫一扫
内容投诉
生成图片
豆包团队视频生成新突破:无需语言模型,仅凭“视觉”就能学习复杂任务
豆包团队提出的新视频生成模型VideoWorld,无需语言模型,仅凭“视觉”就能学习复杂任务。现有模型多依赖语言或标签数据,而语言无法全面捕捉真实世界的知识,如折纸、打领结等。VideoWorld采用潜在动态模型(LDM)压缩视频帧间的视觉变化信息,提升学习效率。在不依赖强化学习搜索或奖励函数的情况下,VideoWorld达到专业5段9×9围棋水平,并能在多种环境中执行机器人任务。VideoWorld通过LDM建模数据模式、辅助前向规划及生成因果相关编码,克服了视频学习中的冗余信息问题。团队希望未来解决高质量视频生成和多环境泛化的挑战,使视频生成模型成为通用知识学习器。
WisdomTrail
01-27 14:31:44
VideoWorld
潜在动态模型
视觉学习
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序