让AI作画自己纠错！随机丢模块就能提升生成质量，告别塑料感废片

2025-08-23 14:01:43

灵感Phoenix

发布在

科普

阅读：396

让AI作画自己纠错！随机丢模块提升生成质量，告别塑料感废片

AI作画和视频生成可以“自我救赎”了！清华大学、阿里巴巴AMAP和中科院自动化研究所的研究团队提出了一种全新方法——S²-Guidance（随机自引导）。其核心亮点是通过随机丢弃网络模块动态构建“弱”子网络，实现生成过程的自我修正。这种方法不仅避免了繁琐的参数调整，还能显著提升生成质量，真正做到即插即用。

S²-Guidance在文生图和文生视频任务中表现出色，具体体现在以下几个方面：
- 卓越的时间动态：如熊的运动姿态或赛车的动态镜头更显流畅。
- 精细的细节渲染：能刻画宇航员头盔的透明质感等复杂细节。
- 更少的视觉伪影：减少跑步者、打伞女性等场景中的瑕疵。
- 丰富的艺术表达：抽象肖像、城堡、彩色粉末爆炸等场景的艺术细节更加饱满。
- 更好的物体协调性：猫与火箭、书与羊等组合的物体关系更加和谐。

CFG的瓶颈：失真与缺乏通用性

传统的CFG（无分类器引导）虽能提升生成质量，但在高引导强度下容易导致过饱和和失真。此前的方法尝试通过引入“弱模型”来修正，但面临弱模型太弱或太强的问题，难以平衡。此外，这些方法通常需要针对不同任务进行复杂调参，缺乏通用性。

S²-Guidance另辟蹊径，不再依赖外部弱模型或复杂调参，而是通过随机丢弃模块让模型自行监督，实现了通用且自动的优化。

S²-Guidance的核心机制：“随机丢模块”

S²-Guidance利用扩散模型的冗余特性，在推理时随机丢弃部分网络模块，动态构建轻量化的子网络。这个子网络暴露了完整模型的潜在错误倾向，从而为生成过程提供“负向引导”。最终，通过简单的“纠错式减法”，模型能够精准规避低质量区域，生成更保真的结果。

研究团队首先在一维和二维高斯混合分布的“玩具实验”中验证了该方法的有效性，随后将其推广到复杂的图像和视频生成任务中。

实验效果：全方位提升

S²-Guidance在多个维度上表现优异：
1. 动态感更强：如熊爬树的动作更有力，赛车的速度感更强。
2. 细节更精致：如宇航员头盔的透明质感、彩色粉末爆炸的瞬间清晰可见。
3. 伪影更少：减少了跑步者肢体扭曲等常见问题。
4. 物体一致性更好：如猫与火箭的比例更加协调。

在视频生成中，S²-Guidance解决了CFG的两大痛点：
- 物理真实性：生成符合物理规律的场景，如卡车正常行驶而非“横向漂移”。
- 复杂指令遵循：如忠实还原“金线环绕人脸并发光”的动态场景。