标题:轻量化虚拟试衣新框架——CatVTON
只需两张图像,不到30秒,就能实现虚拟试衣奇技,让马斯克穿上牛仔走红毯,或让寡姐展示国风Polo衫。这背后是中山大学、Pixocial等机构联合发布的CatVTON轻量化模型架构,它以Stable Diffusion v1.5 inpainting为基础,实现了传统平铺服装图到人物的换装。
CatVTON功能概览: - 服饰种类广泛:无论上衣、裤子、裙子还是套装,各种品类的服装均可轻松试穿。 - 一致性和自然度:保持服装的形状和纹理高度一致,换装效果自然流畅。 - 人物间换装:无需明确类别,根据Mask的不同,实现从一个人物到另一个人物的服装转换,支持单一或组合服装更换。
CatVTON模型架构亮点: - 简洁高效:仅需2个网络模块(VAE+UNet)。 - 参数优化:总参数量899.06M,推理显存需求小于8G(输出图像大小为1024×768)。 - 模块化精简:通过观察现有方法的模块冗余,CatVTON在设计中去除了不必要的组件,如Warping方法的几何匹配、扩散模型中的ReferenceNet,以及T2I任务中的文本交叉注意力,从而实现了模型架构的轻量化。
训练策略: - 研究了扩散模型预训练与TryOn任务之间的联系,确认了关键模块——Self Attention的重要性,该模块仅占总参数量的5.71%,微调这部分就可达到逼真的试穿效果。
CatVTON不仅实现了功能的丰富多样性,而且通过轻量化的设计,显著降低了模型的训练和推理成本,为虚拟试衣技术的广泛应用提供了坚实的基础。项目主页及论文详情请参阅链接:
原文链接
本文链接:https://kx.umi6.com/article/4303.html
转载请注明文章出处
相关推荐
.png)
换一换
Windsurf“惊魂 96 小时”AI 闪电并购战:谷歌天价挖人,Cognition 逆袭接盘
2025-07-19 15:54:26
利通电子等在上海成立昊利智算公司
2025-07-18 19:45:00
OpenAI将启动5000万美元基金 支持非营利组织和社区组织
2025-07-19 07:49:30
412 文章
59201 浏览
24小时热文
更多

-
2025-07-21 09:17:04
-
2025-07-21 09:16:17
-
2025-07-21 09:16:00