标题:港大马毅团队开源新作:用编码率正则化简化视觉自监督学习
摘要:马毅团队、微软研究院、UC伯克利等联合发布SimDINO和SimDINOv2,通过编码率正则化简化DINO和DINOv2模型训练流程,使模型训练更简单、稳定且性能更强。
正文: 最近,马毅团队、微软研究院及UC伯克利等联合发布了SimDINO和SimDINOv2,这两个模型通过编码率正则化简化了DINO和DINOv2的训练流程。
DINO和DINOv2是当前最强的视觉模型之一,广泛应用于多模态大模型中。然而,它们需要复杂的工程方法来实现。SimDINO通过去除DINO中的复杂后处理步骤,简化了训练流程,并提升了模型性能。
SimDINO的核心思想是通过编码率正则化防止表示崩溃,从而去除原始DINO和DINOv2训练流程中许多经验性设计组件。具体方法包括移除经验性组件和引入编码率正则化项,简化了训练流程,减少了对超参数的依赖,提高了训练的稳定性和效率。
SimDINO保留了DINO的EMA自蒸馏方案和多视图数据增强方法,但在对比学习方案上进行了修改。SimDINOv2进一步简化了DINOv2引入的iBOT机制,去除了复杂的中心化和锐化操作。
实验结果显示,SimDINO和SimDINOv2在多个数据集和任务上,包括图像分类、目标检测、语义分割和视频对象分割上,均优于DINO系列。同时,SimDINO对超参数和数据变化更稳健。
研究团队来自UC伯克利、微软研究院、香港大学等机构。项目论文已发布在ArXiv上,代码也在GitHub上开源。
原文链接
本文链接:https://kx.umi6.com/article/15065.html
转载请注明文章出处
相关推荐
换一换
圆桌论坛:关于“世界模型”突破方向的六个猜想 | GAIR 2025
2025-12-31 16:36:10
港大马毅团队等开源新作:用编码率正则化重构视觉自监督学习范式,“少即是多”
2025-03-08 12:49:57
杨立昆最新访谈:用于训练AI模型的资源,远没有到尽头
2025-03-10 11:34:42
34GB大礼包 AMD显卡AI生产力来了:ComfyUI等5大软件一键部署
2026-01-22 23:17:29
NVIDIA黄仁勋:未来的电脑比现在强10亿倍
2026-01-21 23:29:50
没有商业模式,是DeepSeek最坚固的「护城河」
2026-01-21 14:10:41
金山云星流全面升级,以智算穿越云上AI新周期
2026-01-22 17:01:20
过去一年,中国AI如何改变全球开源格局?
2026-01-22 13:56:28
OpenAI已建立人形机器人实验室 启动以来规模扩大四倍多
2026-01-22 21:11:56
台积电3纳米产能满载至2027年
2026-01-21 14:12:45
上海:适度超前布局建设新型信息基础设施 纵深推动“5G+工业互联网”
2026-01-23 10:48:11
微软打包收购OpenAI?就差一点!
2026-01-21 17:19:03
黄仁勋:AI发展将带来大规模基建投资潮 数据中心建设对建筑、技术工人需求上升
2026-01-22 11:53:27
641 文章
416164 浏览
24小时热文
更多
-
2026-01-23 12:56:24 -
2026-01-23 11:53:08 -
2026-01-23 11:52:03