OpenAI参与,重卷ImageNet:终于把FID做成训练
量子位 | 公众号 QbitAI
统治AI图像生成近10年的黄金标准FID(Frechet Inception Distance),首次被用作训练工具。来自USC、CMU、CUHK和OpenAI的全华阵容研究团队提出了一种名为FD-loss的方法,成功将“统计样本池”与“梯度计算batch”解耦。通过数万张图像的大容量缓存队列或指数移动平均机制(EMA),稳定估算分布并仅针对小批量数据回传梯度,实现了FID作为训练损失函数的直接优化。
实验结果令人惊讶:
1. 一个单步生成器经后训练后,FID降至0.72(ImageNet 256×256),推理成本无增加。
2. 一个50步扩散模型被改造成1步生成器,无需蒸馏或对抗训练,效果依然出色。
3. FID最低的模型视觉观感未必最佳,基于DINOv2、MAE等现代表征训练的模型虽FID较高,但物体结构和细节更优。
业内长期依赖FID优化,但这一指标已显瓶颈,甚至可能误导方向。为此,团队提出新标准FDrk,通过对6种表征空间的归一化弗雷歇特距离取平均,得到更鲁棒的综合指标。按此测算,真实验证集基准值为1.0,当前顶尖模型仍高达1.89,表明ImageNet生成领域尚远未成熟。
解耦统计量与梯度计算
FID的核心是通过Inception-v3提取特征,计算真实图与生成图的高斯分布距离。然而,传统方法需5万张图片统计,而GPU每步训练最多处理1024张,难以直接用于反向传播。新方法通过“解耦”解决了这一问题:
- 队列法:维护一个超大特征队列,动态更新统计量,仅对当前batch回传梯度。
- EMA法:不存储特征数据,通过指数移动平均实时更新均值与协方差,表现更优且适配多表征空间优化。
三个重要发现
1. FD-loss让单步生成模型实现画质与速度的新高度,如pMF-H的FID从2.29降至0.77,同时保持单步生成。
2. 可将多步扩散模型改造为高性能单步生成器,如JiT-L经微调后FID从291降至0.77,推理速度提升数十倍。
3. FID最低的模型未必视觉效果最佳,现代表征训练的模型在物体结构和细节上更胜一筹。
团队提出新标准FDrk
FDrk综合了6种表征空间的归一化FD比值,揭示当前生成模型仍有巨大提升空间。此外,FD-loss具备低门槛、强泛化能力,可作为轻量化插件嵌入现有流程,大幅降低高质量生成模型的工程难度。
论文arXiv:https://arxiv.org/abs/2604.28190
-
2026-05-03 16:32:14 -
2026-05-03 16:31:06 -
2026-05-03 14:26:30