蜘蛛侠妖娆起舞，下一代ControlNet来了！贾佳亚团队推出，即插即用，还能控制视频生成

2024-08-17 12:40:03

虚拟织梦者

发布在

科普

阅读：292

《下一代ControlNet：轻量化、高效且即插即用》

港中文贾佳亚团队推出了开源图像/视频生成引导工具——ControlNeXt，定位为下一代ControlNet。仅需不到10%的训练参数，即可实现与ControlNet同等性能，并兼容SDXL、SD1.5等Stable Diffusion家族的常见模型，实现即插即用。ControlNeXt在图像和视频生成上表现出色，能够精准控制动作细节，如手指动作，支持多款SD系模型，包括SD1.5、SDXL、SD3和视频生成模型SVD。

在SDXL中，ControlNeXt通过边缘（Canny）引导绘制二次元少女，控制线条几乎完美贴合。即使控制轮廓复杂，模型也能绘制出符合要求的图片。无需额外训练，ControlNeXt可与其他LoRA权重无缝集成，形成风格迥异乃至跨越次元的角色。支持遮罩（mask）和景深（depth）控制，以及超级分辨率（Super Resolution）功能，可生成超高清晰度图像。

ControlNeXt在蜘蛛侠跳起美女舞蹈的视频生成中，展现了精准的动作复刻能力，即使是抽象的椅子也长出手跳相同的舞蹈。相较于ControlNet，ControlNeXt需要的训练参数更少，收敛速度更快，生成速度也更快，平均延迟降低。实现这一突破的关键在于引入轻量级卷积模块，简化控制分支，优化条件控制信息的注入位置和方式。

ControlNeXt通过减少控制分支，采用轻量级卷积模块提取控制条件特征，保持与原始架构的一致性，实现即插即用。研究团队深入研究了控制信息的注入位置选择和设计，发现无需在去噪网络的每一层都注入控制信息，选择在网络的中间层聚合特征。采用交叉归一化技术替代零卷积等初始化策略，直接利用主干网络去噪特征的均值和方差对控制模块输出进行归一化，加速收敛进程，提高模型泛化能力。

欲了解更多详情，请访问项目主页、论文地址或GitHub仓库。

经过精简和整理，这段文本保留了原文的核心信息，将内容浓缩至约500字以内，同时保持了原文的真实性和完整性。

原文链接

本文链接：https://kx.umi6.com/article/5128.html

转载请注明文章出处

ControlNeXt