综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年12月,谢赛宁团队发布新论文《iREPA》,探讨视觉编码器表征生成性能的关键驱动因素。研究指出,空间结构而非全局语义信息决定了生成质量,这一结论颠覆了传统认知。论文源于8月的一场推特辩论,谢赛宁与网友讨论自监督学习模型在稠密任务中的表现,最终促成多团队合作完成研究。iREPA框架通过改进投影层和引入空间规范化,强化空间结构信息,仅需3行代码即可显著提升性能。研究覆盖27种视觉编码器及3种模型规模,并发现经典空间特征(如SIFT、HOG)也能媲美现代编码器。致谢部分特别感谢参与讨论的网友,体现了开放学术讨论的价值。
原文链接
加载更多
暂无内容