1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:港大马毅团队开源新作:用编码率正则化简化视觉自监督学习

摘要:马毅团队、微软研究院、UC伯克利等联合发布SimDINO和SimDINOv2,通过编码率正则化简化DINO和DINOv2模型训练流程,使模型训练更简单、稳定且性能更强。

正文: 最近,马毅团队、微软研究院及UC伯克利等联合发布了SimDINO和SimDINOv2,这两个模型通过编码率正则化简化了DINO和DINOv2的训练流程。

DINO和DINOv2是当前最强的视觉模型之一,广泛应用于多模态大模型中。然而,它们需要复杂的工程方法来实现。SimDINO通过去除DINO中的复杂后处理步骤,简化了训练流程,并提升了模型性能。

SimDINO的核心思想是通过编码率正则化防止表示崩溃,从而去除原始DINO和DINOv2训练流程中许多经验性设计组件。具体方法包括移除经验性组件和引入编码率正则化项,简化了训练流程,减少了对超参数的依赖,提高了训练的稳定性和效率。

SimDINO保留了DINO的EMA自蒸馏方案和多视图数据增强方法,但在对比学习方案上进行了修改。SimDINOv2进一步简化了DINOv2引入的iBOT机制,去除了复杂的中心化和锐化操作。

实验结果显示,SimDINO和SimDINOv2在多个数据集和任务上,包括图像分类、目标检测、语义分割和视频对象分割上,均优于DINO系列。同时,SimDINO对超参数和数据变化更稳健。

研究团队来自UC伯克利、微软研究院、香港大学等机构。项目论文已发布在ArXiv上,代码也在GitHub上开源。

原文链接
本文链接:https://kx.umi6.com/article/15065.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
圆桌论坛:关于“世界模型”突破方向的六个猜想 | GAIR 2025
2025-12-31 16:36:10
杨立昆最新访谈:用于训练AI模型的资源,远没有到尽头
2025-03-10 11:34:42
月薪高达13万元!科技大厂掀起AI人才争夺战:35岁从业者成抢手资源
2026-06-08 12:26:28
舔狗AI和被预约的寿司郎
2026-06-05 00:34:31
波恩大学 Maren Bennewitz 教授:让机器人在遮挡世界中主动获取信息 | ICRA 2026
2026-06-05 19:22:55
智启新程 生态同行:2026高通汽车技术与合作峰会展现AI汽车新图景
2026-06-05 19:20:05
ARM CEO:美对华禁运AI CPU几乎不可能!比禁GPU难多了
2026-06-03 16:29:54
刚刚,Anthropic提交了招股书!
2026-06-03 12:19:08
CCIG 2026 在广州圆满落幕:4200 余位专家学者共绘图像图形发展新图景
2026-06-04 12:06:45
刚刚,姚顺雨现身!公开回应腾讯AI落后了吗?
2026-06-05 12:54:51
扣子3.0实测:手机就能远程遥控你电脑里的Agent
2026-06-04 09:58:01
5分钟AI长视频不翻车!国产开源框架杀到全球第一梯队
2026-06-07 09:22:47
Gartner 高挺:机器人产业迈入 GPT-2 发展周期,企业落地切忌盲目布局人形机器人
2026-06-05 10:57:10
24小时热文
更多
扫一扫体验小程序