标题:港大马毅团队开源新作:用编码率正则化简化视觉自监督学习
摘要:马毅团队、微软研究院、UC伯克利等联合发布SimDINO和SimDINOv2,通过编码率正则化简化DINO和DINOv2模型训练流程,使模型训练更简单、稳定且性能更强。
正文: 最近,马毅团队、微软研究院及UC伯克利等联合发布了SimDINO和SimDINOv2,这两个模型通过编码率正则化简化了DINO和DINOv2的训练流程。
DINO和DINOv2是当前最强的视觉模型之一,广泛应用于多模态大模型中。然而,它们需要复杂的工程方法来实现。SimDINO通过去除DINO中的复杂后处理步骤,简化了训练流程,并提升了模型性能。
SimDINO的核心思想是通过编码率正则化防止表示崩溃,从而去除原始DINO和DINOv2训练流程中许多经验性设计组件。具体方法包括移除经验性组件和引入编码率正则化项,简化了训练流程,减少了对超参数的依赖,提高了训练的稳定性和效率。
SimDINO保留了DINO的EMA自蒸馏方案和多视图数据增强方法,但在对比学习方案上进行了修改。SimDINOv2进一步简化了DINOv2引入的iBOT机制,去除了复杂的中心化和锐化操作。
实验结果显示,SimDINO和SimDINOv2在多个数据集和任务上,包括图像分类、目标检测、语义分割和视频对象分割上,均优于DINO系列。同时,SimDINO对超参数和数据变化更稳健。
研究团队来自UC伯克利、微软研究院、香港大学等机构。项目论文已发布在ArXiv上,代码也在GitHub上开源。
原文链接
本文链接:https://kx.umi6.com/article/15065.html
转载请注明文章出处
相关推荐
换一换
杨立昆最新访谈:用于训练AI模型的资源,远没有到尽头
2025-03-10 11:34:42
圆桌论坛:关于“世界模型”突破方向的六个猜想 | GAIR 2025
2025-12-31 16:36:10
RAM——复杂场景下多人3D人体运动重建新框架 | CVPR 2026
2026-04-24 14:15:34
中金公司:公募一季度大幅加仓偏AI产业链硬件端通信行业 减仓有色和电子
2026-04-23 09:00:20
横店影视:将向“以IP为核心的全链路运营模式”转型升级
2026-04-23 15:14:07
特斯拉CFO:今年将豪掷250亿美元 押注AI与机器人
2026-04-23 11:04:57
打击P图恶意骗退款!淘宝天猫上线售后AI假图识别模型
2026-04-23 19:25:25
腾讯云TokenHub上架DeepSeek-V4
2026-04-24 16:22:09
独家|黑湖科技完成近10亿元D轮融资
2026-04-23 08:59:12
上海:一季度全市三大先导产业制造领域产值同比增长16.1%
2026-04-22 17:32:28
阿里云百炼上线DeepSeek-V4
2026-04-24 20:31:56
国家知识产权局:将积极完善新兴领域知识产权保护制度
2026-04-23 17:20:53
仅靠219个字!AI耗时12小时设计出完整CPU:传统研发需18-36个月
2026-04-24 17:26:33
696 文章
535820 浏览
24小时热文
更多
-
2026-04-24 20:31:56 -
2026-04-24 20:29:51 -
2026-04-24 19:29:38