标题:港大马毅团队开源新作:用编码率正则化简化视觉自监督学习
摘要:马毅团队、微软研究院、UC伯克利等联合发布SimDINO和SimDINOv2,通过编码率正则化简化DINO和DINOv2模型训练流程,使模型训练更简单、稳定且性能更强。
正文: 最近,马毅团队、微软研究院及UC伯克利等联合发布了SimDINO和SimDINOv2,这两个模型通过编码率正则化简化了DINO和DINOv2的训练流程。
DINO和DINOv2是当前最强的视觉模型之一,广泛应用于多模态大模型中。然而,它们需要复杂的工程方法来实现。SimDINO通过去除DINO中的复杂后处理步骤,简化了训练流程,并提升了模型性能。
SimDINO的核心思想是通过编码率正则化防止表示崩溃,从而去除原始DINO和DINOv2训练流程中许多经验性设计组件。具体方法包括移除经验性组件和引入编码率正则化项,简化了训练流程,减少了对超参数的依赖,提高了训练的稳定性和效率。
SimDINO保留了DINO的EMA自蒸馏方案和多视图数据增强方法,但在对比学习方案上进行了修改。SimDINOv2进一步简化了DINOv2引入的iBOT机制,去除了复杂的中心化和锐化操作。
实验结果显示,SimDINO和SimDINOv2在多个数据集和任务上,包括图像分类、目标检测、语义分割和视频对象分割上,均优于DINO系列。同时,SimDINO对超参数和数据变化更稳健。
研究团队来自UC伯克利、微软研究院、香港大学等机构。项目论文已发布在ArXiv上,代码也在GitHub上开源。
原文链接
本文链接:https://kx.umi6.com/article/15065.html
转载请注明文章出处
相关推荐
.png)
换一换
杨立昆最新访谈:用于训练AI模型的资源,远没有到尽头
2025-03-10 11:34:42
港大马毅团队等开源新作:用编码率正则化重构视觉自监督学习范式,“少即是多”
2025-03-08 12:49:57
新华三集团与重庆水务环境集团签订战略合作协议
2025-09-06 10:33:40
商汤日日新为 Claude API 用户提供“搬家”服务:可获 5000 万 Tokens 体验包
2025-09-06 15:35:37
新一轮AI浏览器大战,谷歌将掉队了?
2025-09-05 10:20:22
趁着HBM热潮加速!SK海力士Q2蝉联全球DRAM市占率第一
2025-09-05 13:22:16
2025世界智能产业博览会今天开幕
2025-09-05 08:16:16
项目开发调试周期缩短至8小时 行业首个智能仓储AI大脑发布
2025-09-07 13:45:23
美国AI巨头Anthropic全球封杀中国控股公司!无论何地一律禁用Claude等
2025-09-05 18:23:30
GPT-4o 见AV 女优的次数比“您好”还多2.6倍,AI 正在被中文互联网疯狂污染
2025-09-06 12:37:21
实测美团 LongCat:快到极致,但是别说追平 DeepSeek
2025-09-05 15:22:48
参数量 1T,阿里官方介绍“通义最强语言模型”Qwen3-Max-Preview
2025-09-07 00:40:01
AI“P 图”爆火出圈:“Nano Banana”一周为谷歌 Gemini 吸引千万新用户
2025-09-05 08:12:32
494 文章
172954 浏览
24小时热文
更多

-
2025-09-07 21:49:50
-
2025-09-07 20:50:36
-
2025-09-07 20:49:25