标题:上交大 x vivo 团队:一个简单改动,让 diffusion 全面提升丨CVPR 2026
正文:
图像生成模型看似强大,但在实际使用中常暴露出细节问题,比如手部、材质和边缘处理不够精细,或画面风格与语义不符。这些问题反映了当前扩散模型(diffusion model)的核心矛盾:虽然生成能力不缺,但稳定性和可控性不足。过去,行业依赖更大模型、更多数据和更强算力推动效果,但随着模型能力逼近极限,关键问题已从“能不能生成”转向“能不能稳定生成”。
上海交通大学与 vivo BlueImage Lab 提出了一种新方法《C²FG Control Classifier Free Guidance via Score Discrepancy Analysis》,直击这一矛盾。传统 guidance 方法默认引导强度固定,但扩散过程动态变化,不同阶段对条件信息的依赖程度不同。C²FG 的创新在于动态调整引导强度,使生成过程更符合真实扩散动态。
实验结果表明,C²FG 在多个任务中均显著提升生成质量。在 ImageNet 任务中,FID 从 2.29 降至 2.07,IS 从 276.8 提升至 291.5,且 Precision 和 Recall 均有改善。即使在高性能模型如 SiT-XL/2 上,FID 仍从 1.80 降至 1.51,IS 从 284.0 提升至 315.0。高分辨率任务中,FID 从 6.81 降至 6.54,IS 从 229.5 提升至 280.9。文本生成图像任务中也有类似改进,验证了方法的普适性。
研究团队通过逐层实验设计深入分析 C²FG 的机制。他们发现,扩散过程中条件分支与无条件分支的差异随时间变化,早期引导过强会导致偏差,后期引导不足则缺乏约束。C²FG 动态匹配这种变化,避免了传统方法的固定引导问题。
这项研究的意义不仅在于指标提升,更在于揭示了扩散模型的本质问题。C²FG 改进的不是局部技巧,而是条件引导的普遍偏差,为未来生成模型的设计提供了新方向。尤其在少步数推理中,C²FG 表现更优,意味着它能降低计算成本,提升生成速度和稳定性。
最终,这项技术可能让用户获得更快、更稳、更自然的生成体验,同时降低设备性能要求,推动图像生成工具的普及。
-
2026-04-22 19:27:03 -
2026-04-22 19:25:59 -
2026-04-22 19:24:53