OpenAI参与，重卷ImageNet：终于把FID做成训练

2026-05-03 16:31:06

智能涌动

发布在

科普

阅读：151

OpenAI参与，重卷ImageNet：终于把FID做成训练

量子位 | 公众号 QbitAI

统治AI图像生成近10年的黄金标准FID（Frechet Inception Distance），首次被用作训练工具。来自USC、CMU、CUHK和OpenAI的全华阵容研究团队提出了一种名为FD-loss的方法，成功将“统计样本池”与“梯度计算batch”解耦。通过数万张图像的大容量缓存队列或指数移动平均机制（EMA），稳定估算分布并仅针对小批量数据回传梯度，实现了FID作为训练损失函数的直接优化。

实验结果令人惊讶：
1. 一个单步生成器经后训练后，FID降至0.72（ImageNet 256×256），推理成本无增加。
2. 一个50步扩散模型被改造成1步生成器，无需蒸馏或对抗训练，效果依然出色。
3. FID最低的模型视觉观感未必最佳，基于DINOv2、MAE等现代表征训练的模型虽FID较高，但物体结构和细节更优。

业内长期依赖FID优化，但这一指标已显瓶颈，甚至可能误导方向。为此，团队提出新标准FDrk，通过对6种表征空间的归一化弗雷歇特距离取平均，得到更鲁棒的综合指标。按此测算，真实验证集基准值为1.0，当前顶尖模型仍高达1.89，表明ImageNet生成领域尚远未成熟。

解耦统计量与梯度计算
FID的核心是通过Inception-v3提取特征，计算真实图与生成图的高斯分布距离。然而，传统方法需5万张图片统计，而GPU每步训练最多处理1024张，难以直接用于反向传播。新方法通过“解耦”解决了这一问题：
- 队列法：维护一个超大特征队列，动态更新统计量，仅对当前batch回传梯度。
- EMA法：不存储特征数据，通过指数移动平均实时更新均值与协方差，表现更优且适配多表征空间优化。

三个重要发现
1. FD-loss让单步生成模型实现画质与速度的新高度，如pMF-H的FID从2.29降至0.77，同时保持单步生成。
2. 可将多步扩散模型改造为高性能单步生成器，如JiT-L经微调后FID从291降至0.77，推理速度提升数十倍。
3. FID最低的模型未必视觉效果最佳，现代表征训练的模型在物体结构和细节上更胜一筹。

团队提出新标准FDrk
FDrk综合了6种表征空间的归一化FD比值，揭示当前生成模型仍有巨大提升空间。此外，FD-loss具备低门槛、强泛化能力，可作为轻量化插件嵌入现有流程，大幅降低高质量生成模型的工程难度。

论文arXiv：https://arxiv.org/abs/2604.28190

原文链接

本文链接：https://kx.umi6.com/article/35438.html

转载请注明文章出处

FD-loss