标题:港大马毅团队开源新作:用编码率正则化简化视觉自监督学习
摘要:马毅团队、微软研究院、UC伯克利等联合发布SimDINO和SimDINOv2,通过编码率正则化简化DINO和DINOv2模型训练流程,使模型训练更简单、稳定且性能更强。
正文: 最近,马毅团队、微软研究院及UC伯克利等联合发布了SimDINO和SimDINOv2,这两个模型通过编码率正则化简化了DINO和DINOv2的训练流程。
DINO和DINOv2是当前最强的视觉模型之一,广泛应用于多模态大模型中。然而,它们需要复杂的工程方法来实现。SimDINO通过去除DINO中的复杂后处理步骤,简化了训练流程,并提升了模型性能。
SimDINO的核心思想是通过编码率正则化防止表示崩溃,从而去除原始DINO和DINOv2训练流程中许多经验性设计组件。具体方法包括移除经验性组件和引入编码率正则化项,简化了训练流程,减少了对超参数的依赖,提高了训练的稳定性和效率。
SimDINO保留了DINO的EMA自蒸馏方案和多视图数据增强方法,但在对比学习方案上进行了修改。SimDINOv2进一步简化了DINOv2引入的iBOT机制,去除了复杂的中心化和锐化操作。
实验结果显示,SimDINO和SimDINOv2在多个数据集和任务上,包括图像分类、目标检测、语义分割和视频对象分割上,均优于DINO系列。同时,SimDINO对超参数和数据变化更稳健。
研究团队来自UC伯克利、微软研究院、香港大学等机构。项目论文已发布在ArXiv上,代码也在GitHub上开源。
原文链接
本文链接:https://kx.umi6.com/article/15065.html
转载请注明文章出处
相关推荐
.png)
换一换
杨立昆最新访谈:用于训练AI模型的资源,远没有到尽头
2025-03-10 11:34:42
港大马毅团队等开源新作:用编码率正则化重构视觉自监督学习范式,“少即是多”
2025-03-08 12:49:57
全球首个百亿级可部署基因组基础模型诞生
2025-10-23 07:59:17
快手进军AICoding赛道
2025-10-23 16:11:06
网络安全法修正草案将二审:拟修法促进人工智能安全与发展
2025-10-23 11:04:07
汇报一下ICCV全部奖项,恭喜朱俊彦团队获最佳论文
2025-10-22 16:47:39
全国人大常委会法工委:网络安全法拟增加促进AI安全与发展内容
2025-10-23 18:13:26
OpenAI也来了,巨头为何决战AI浏览器?
2025-10-23 10:04:31
荣耀董事长吴晖:已累计投入超100亿元用于AI研发
2025-10-23 12:03:24
百镜大战再添把火!阿里夸克AI眼镜即将开启预售
2025-10-23 15:12:35
荣耀与比亚迪达成战略合作,共同打造AI驱动的智慧出行新生态
2025-10-22 17:49:08
独家|阿里夸克“C计划”揭晓 上线对话助手 把“豆包”塞了进去
2025-10-23 10:05:55
OpenAI合作伙伴Crusoe在新一轮融资中估值达100亿美元
2025-10-24 03:21:23
540 文章
255514 浏览
24小时热文
更多

-
2025-10-24 05:23:38
-
2025-10-24 03:21:23
-
2025-10-24 01:20:07