标题:清华段岳圻团队论文:文生图方法论升级,从调参数到做控制丨CVPR 2026
正文:
使用文生图工具时,用户常遇到生成结果与描述不符的问题,例如位置关系混乱、文字变形或画面不自然。调整参数虽能接近目标,但往往牺牲画质,导致颜色失真或结构扭曲。这种可控性与稳定性之间的矛盾,已成为生成模型走向实际应用的主要障碍。
清华大学段岳圻团队提出《CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance》,从底层重新审视这一问题。研究不再将CFG视为简单的参数调节手段,而是将其看作动态系统,通过引入控制理论重新设计guidance机制,使生成过程更稳定地收敛到符合语义约束的结果。这种方法显著提升了生成图像的结构一致性、文字清晰度和复杂场景中多对象关系的准确性,大幅降低了用户的试错成本。
实验表明,SMC-CFG在多个指标上全面优于标准CFG。例如,在图像质量指标FID和语义对齐指标CLIP上均有提升,尤其在高guidance scale下,传统方法易导致画质劣化,而SMC-CFG能在增强语义信息的同时保持画质稳定。此外,该方法在复杂prompt下的表现尤为突出,解决了空间关系错位、文字模糊等问题。
研究还通过消融实验分析了关键参数λ和k的作用,发现其性能提升来源于控制机制的设计,而非偶然调参。实验覆盖多种规模的模型(如SD3.5、Flux、Qwen-Image),验证了方法的普适性。
这项研究的意义不仅在于技术改进,更在于改变了人们对图像生成模型的理解。过去,CFG被视为经验性调节手段,而段岳圻团队将其提升为控制问题,通过非线性控制方法解决了传统CFG的线性误差放大问题。这使得文生图模型从“偶尔惊艳”迈向“稳定可靠”,为设计、电商、内容创作等领域的实际应用铺平了道路。
论文一作为清华大学硕士生汪晗阳,通讯作者为段岳圻副教授。段岳圻的研究方向涵盖计算机视觉与模式识别,曾获多项学术荣誉,并担任多个国际会议领域主席。
论文地址:https://arxiv.org/pdf/2603.03281
-
2026-04-22 19:27:03 -
2026-04-22 19:25:59 -
2026-04-22 19:24:53