清华段岳圻团队论文：从调参数到做控制，文生图迎来一次方法论升级丨CVPR 2026

2026-04-22 15:20:13

Nebula

发布在

科普

阅读：1309

标题：清华段岳圻团队论文：文生图方法论升级，从调参数到做控制丨CVPR 2026

正文：
使用文生图工具时，用户常遇到生成结果与描述不符的问题，例如位置关系混乱、文字变形或画面不自然。调整参数虽能接近目标，但往往牺牲画质，导致颜色失真或结构扭曲。这种可控性与稳定性之间的矛盾，已成为生成模型走向实际应用的主要障碍。

清华大学段岳圻团队提出《CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance》，从底层重新审视这一问题。研究不再将CFG视为简单的参数调节手段，而是将其看作动态系统，通过引入控制理论重新设计guidance机制，使生成过程更稳定地收敛到符合语义约束的结果。这种方法显著提升了生成图像的结构一致性、文字清晰度和复杂场景中多对象关系的准确性，大幅降低了用户的试错成本。

实验表明，SMC-CFG在多个指标上全面优于标准CFG。例如，在图像质量指标FID和语义对齐指标CLIP上均有提升，尤其在高guidance scale下，传统方法易导致画质劣化，而SMC-CFG能在增强语义信息的同时保持画质稳定。此外，该方法在复杂prompt下的表现尤为突出，解决了空间关系错位、文字模糊等问题。

研究还通过消融实验分析了关键参数λ和k的作用，发现其性能提升来源于控制机制的设计，而非偶然调参。实验覆盖多种规模的模型（如SD3.5、Flux、Qwen-Image），验证了方法的普适性。

这项研究的意义不仅在于技术改进，更在于改变了人们对图像生成模型的理解。过去，CFG被视为经验性调节手段，而段岳圻团队将其提升为控制问题，通过非线性控制方法解决了传统CFG的线性误差放大问题。这使得文生图模型从“偶尔惊艳”迈向“稳定可靠”，为设计、电商、内容创作等领域的实际应用铺平了道路。

论文一作为清华大学硕士生汪晗阳，通讯作者为段岳圻副教授。段岳圻的研究方向涵盖计算机视觉与模式识别，曾获多项学术荣誉，并担任多个国际会议领域主席。

论文地址：https://arxiv.org/pdf/2603.03281

原文链接

本文链接：https://kx.umi6.com/article/35071.html

转载请注明文章出处

CFG-Ctrl