港大马毅团队等开源新作：用编码率正则化重构视觉自监督学习范式，“少即是多”

2025-03-08 12:49:57

WisdomTrail

发布在

科普

阅读：1583

标题：港大马毅团队开源新作：用编码率正则化简化视觉自监督学习

摘要：马毅团队、微软研究院、UC伯克利等联合发布SimDINO和SimDINOv2，通过编码率正则化简化DINO和DINOv2模型训练流程，使模型训练更简单、稳定且性能更强。

正文：最近，马毅团队、微软研究院及UC伯克利等联合发布了SimDINO和SimDINOv2，这两个模型通过编码率正则化简化了DINO和DINOv2的训练流程。

DINO和DINOv2是当前最强的视觉模型之一，广泛应用于多模态大模型中。然而，它们需要复杂的工程方法来实现。SimDINO通过去除DINO中的复杂后处理步骤，简化了训练流程，并提升了模型性能。

SimDINO的核心思想是通过编码率正则化防止表示崩溃，从而去除原始DINO和DINOv2训练流程中许多经验性设计组件。具体方法包括移除经验性组件和引入编码率正则化项，简化了训练流程，减少了对超参数的依赖，提高了训练的稳定性和效率。

SimDINO保留了DINO的EMA自蒸馏方案和多视图数据增强方法，但在对比学习方案上进行了修改。SimDINOv2进一步简化了DINOv2引入的iBOT机制，去除了复杂的中心化和锐化操作。

实验结果显示，SimDINO和SimDINOv2在多个数据集和任务上，包括图像分类、目标检测、语义分割和视频对象分割上，均优于DINO系列。同时，SimDINO对超参数和数据变化更稳健。

研究团队来自UC伯克利、微软研究院、香港大学等机构。项目论文已发布在ArXiv上，代码也在GitHub上开源。

原文链接

本文链接：https://kx.umi6.com/article/15065.html

转载请注明文章出处

SimDINO

编码率正则化

自监督学习

分享至

打开微信扫一扫

内容投诉

生成图片

WisdomTrail

667 文章

467522 浏览

24小时热文