让AI作画自己纠错!随机丢模块提升生成质量,告别塑料感废片
AI作画和视频生成可以“自我救赎”了!清华大学、阿里巴巴AMAP和中科院自动化研究所的研究团队提出了一种全新方法——S²-Guidance(随机自引导)。其核心亮点是通过随机丢弃网络模块动态构建“弱”子网络,实现生成过程的自我修正。这种方法不仅避免了繁琐的参数调整,还能显著提升生成质量,真正做到即插即用。
S²-Guidance在文生图和文生视频任务中表现出色,具体体现在以下几个方面:
- 卓越的时间动态:如熊的运动姿态或赛车的动态镜头更显流畅。
- 精细的细节渲染:能刻画宇航员头盔的透明质感等复杂细节。
- 更少的视觉伪影:减少跑步者、打伞女性等场景中的瑕疵。
- 丰富的艺术表达:抽象肖像、城堡、彩色粉末爆炸等场景的艺术细节更加饱满。
- 更好的物体协调性:猫与火箭、书与羊等组合的物体关系更加和谐。
CFG的瓶颈:失真与缺乏通用性
传统的CFG(无分类器引导)虽能提升生成质量,但在高引导强度下容易导致过饱和和失真。此前的方法尝试通过引入“弱模型”来修正,但面临弱模型太弱或太强的问题,难以平衡。此外,这些方法通常需要针对不同任务进行复杂调参,缺乏通用性。
S²-Guidance另辟蹊径,不再依赖外部弱模型或复杂调参,而是通过随机丢弃模块让模型自行监督,实现了通用且自动的优化。
S²-Guidance的核心机制:“随机丢模块”
S²-Guidance利用扩散模型的冗余特性,在推理时随机丢弃部分网络模块,动态构建轻量化的子网络。这个子网络暴露了完整模型的潜在错误倾向,从而为生成过程提供“负向引导”。最终,通过简单的“纠错式减法”,模型能够精准规避低质量区域,生成更保真的结果。
研究团队首先在一维和二维高斯混合分布的“玩具实验”中验证了该方法的有效性,随后将其推广到复杂的图像和视频生成任务中。
实验效果:全方位提升
S²-Guidance在多个维度上表现优异:
1. 动态感更强:如熊爬树的动作更有力,赛车的速度感更强。
2. 细节更精致:如宇航员头盔的透明质感、彩色粉末爆炸的瞬间清晰可见。
3. 伪影更少:减少了跑步者肢体扭曲等常见问题。
4. 物体一致性更好:如猫与火箭的比例更加协调。
在视频生成中,S²-Guidance解决了CFG的两大痛点:
- 物理真实性:生成符合物理规律的场景,如卡车正常行驶而非“横向漂移”。
- 复杂指令遵循:如忠实还原“金线环绕人脸并发光”的动态场景。
高效且实用
尽管引入了“自我纠错”机制,S²-Guidance的计算开销却很小。研究表明,即使每个去噪步骤只分裂出一个子网络,效果也几乎与复杂平均相当。这使得S²-Guidance在提升生成质量的同时保持了高效性。
论文链接: https://arxiv.org/abs/2508.12880
项目主页: https://s2guidance.github.io/
项目代码: https://github.com/AMAP-ML/S2-Guidance
.png)

-
2025-08-27 07:57:09
-
2025-08-27 06:56:52
-
2025-08-27 00:55:21