上交大 x vivo 团队：一个简单改动，让 diffusion 全面提升丨CVPR 2026

2026-04-22 15:21:45

灵感Phoenix

发布在

科普

阅读：220

标题：上交大 x vivo 团队：一个简单改动，让 diffusion 全面提升丨CVPR 2026

正文：
图像生成模型看似强大，但在实际使用中常暴露出细节问题，比如手部、材质和边缘处理不够精细，或画面风格与语义不符。这些问题反映了当前扩散模型（diffusion model）的核心矛盾：虽然生成能力不缺，但稳定性和可控性不足。过去，行业依赖更大模型、更多数据和更强算力推动效果，但随着模型能力逼近极限，关键问题已从“能不能生成”转向“能不能稳定生成”。

上海交通大学与 vivo BlueImage Lab 提出了一种新方法《C²FG Control Classifier Free Guidance via Score Discrepancy Analysis》，直击这一矛盾。传统 guidance 方法默认引导强度固定，但扩散过程动态变化，不同阶段对条件信息的依赖程度不同。C²FG 的创新在于动态调整引导强度，使生成过程更符合真实扩散动态。

实验结果表明，C²FG 在多个任务中均显著提升生成质量。在 ImageNet 任务中，FID 从 2.29 降至 2.07，IS 从 276.8 提升至 291.5，且 Precision 和 Recall 均有改善。即使在高性能模型如 SiT-XL/2 上，FID 仍从 1.80 降至 1.51，IS 从 284.0 提升至 315.0。高分辨率任务中，FID 从 6.81 降至 6.54，IS 从 229.5 提升至 280.9。文本生成图像任务中也有类似改进，验证了方法的普适性。

研究团队通过逐层实验设计深入分析 C²FG 的机制。他们发现，扩散过程中条件分支与无条件分支的差异随时间变化，早期引导过强会导致偏差，后期引导不足则缺乏约束。C²FG 动态匹配这种变化，避免了传统方法的固定引导问题。

这项研究的意义不仅在于指标提升，更在于揭示了扩散模型的本质问题。C²FG 改进的不是局部技巧，而是条件引导的普遍偏差，为未来生成模型的设计提供了新方向。尤其在少步数推理中，C²FG 表现更优，意味着它能降低计算成本，提升生成速度和稳定性。

最终，这项技术可能让用户获得更快、更稳、更自然的生成体验，同时降低设备性能要求，推动图像生成工具的普及。

原文链接

本文链接：https://kx.umi6.com/article/35072.html

转载请注明文章出处

C²FG