标题:港大马毅团队开源新作:用编码率正则化简化视觉自监督学习
摘要:马毅团队、微软研究院、UC伯克利等联合发布SimDINO和SimDINOv2,通过编码率正则化简化DINO和DINOv2模型训练流程,使模型训练更简单、稳定且性能更强。
正文: 最近,马毅团队、微软研究院及UC伯克利等联合发布了SimDINO和SimDINOv2,这两个模型通过编码率正则化简化了DINO和DINOv2的训练流程。
DINO和DINOv2是当前最强的视觉模型之一,广泛应用于多模态大模型中。然而,它们需要复杂的工程方法来实现。SimDINO通过去除DINO中的复杂后处理步骤,简化了训练流程,并提升了模型性能。
SimDINO的核心思想是通过编码率正则化防止表示崩溃,从而去除原始DINO和DINOv2训练流程中许多经验性设计组件。具体方法包括移除经验性组件和引入编码率正则化项,简化了训练流程,减少了对超参数的依赖,提高了训练的稳定性和效率。
SimDINO保留了DINO的EMA自蒸馏方案和多视图数据增强方法,但在对比学习方案上进行了修改。SimDINOv2进一步简化了DINOv2引入的iBOT机制,去除了复杂的中心化和锐化操作。
实验结果显示,SimDINO和SimDINOv2在多个数据集和任务上,包括图像分类、目标检测、语义分割和视频对象分割上,均优于DINO系列。同时,SimDINO对超参数和数据变化更稳健。
研究团队来自UC伯克利、微软研究院、香港大学等机构。项目论文已发布在ArXiv上,代码也在GitHub上开源。
原文链接
本文链接:https://kx.umi6.com/article/15065.html
转载请注明文章出处
相关推荐
换一换
杨立昆最新访谈:用于训练AI模型的资源,远没有到尽头
2025-03-10 11:34:42
港大马毅团队等开源新作:用编码率正则化重构视觉自监督学习范式,“少即是多”
2025-03-08 12:49:57
李开复:未来办公司和搭积木一样快,比谁更会用 Agent
2025-12-06 18:42:35
打工15年,被大厂裁4次了
2025-12-08 11:21:19
跨境电商的疑难杂症,被1688这个AI全包了…
2025-12-07 13:28:44
看完最新国产AI写的公众号文章,我慌了!
2025-12-08 21:48:04
广东“十五五”规划建议:深入推进数字广东建设 加强人工智能治理
2025-12-08 08:14:45
豆包手机助手:我们无法直接查询银行卡余额,需用户授权及手动确认
2025-12-06 17:41:12
英伟达AMD难受了!美国欲推动新法案:全面禁止高端AI芯片对华出口
2025-12-08 13:28:50
谷歌 Gemini 网页版更新“我的内容”文件夹,可一键访问生成的 AI 图像
2025-12-08 08:11:29
亚马逊CTO:开发者只要能进化绝不会被AI取代
2025-12-07 22:52:28
马斯克“太空AI”设想:每年发射1百万吨AI卫星、建设月球卫星工厂
2025-12-08 16:37:25
联想天禧AI足球智能体正式上线,亮相咪咕世界杯抽签夜直播
2025-12-06 17:40:08
600 文章
348675 浏览
24小时热文
更多
-
2025-12-08 23:53:52 -
2025-12-08 22:52:38 -
2025-12-08 22:51:57