1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

OpenAI参与,重卷ImageNet:终于把FID做成训练

量子位 | 公众号 QbitAI

统治AI图像生成近10年的黄金标准FID(Frechet Inception Distance),首次被用作训练工具。来自USC、CMU、CUHK和OpenAI的全华阵容研究团队提出了一种名为FD-loss的方法,成功将“统计样本池”与“梯度计算batch”解耦。通过数万张图像的大容量缓存队列或指数移动平均机制(EMA),稳定估算分布并仅针对小批量数据回传梯度,实现了FID作为训练损失函数的直接优化。

实验结果令人惊讶:
1. 一个单步生成器经后训练后,FID降至0.72(ImageNet 256×256),推理成本无增加。
2. 一个50步扩散模型被改造成1步生成器,无需蒸馏或对抗训练,效果依然出色。
3. FID最低的模型视觉观感未必最佳,基于DINOv2、MAE等现代表征训练的模型虽FID较高,但物体结构和细节更优。

业内长期依赖FID优化,但这一指标已显瓶颈,甚至可能误导方向。为此,团队提出新标准FDrk,通过对6种表征空间的归一化弗雷歇特距离取平均,得到更鲁棒的综合指标。按此测算,真实验证集基准值为1.0,当前顶尖模型仍高达1.89,表明ImageNet生成领域尚远未成熟。

解耦统计量与梯度计算
FID的核心是通过Inception-v3提取特征,计算真实图与生成图的高斯分布距离。然而,传统方法需5万张图片统计,而GPU每步训练最多处理1024张,难以直接用于反向传播。新方法通过“解耦”解决了这一问题:
- 队列法:维护一个超大特征队列,动态更新统计量,仅对当前batch回传梯度。
- EMA法:不存储特征数据,通过指数移动平均实时更新均值与协方差,表现更优且适配多表征空间优化。

三个重要发现
1. FD-loss让单步生成模型实现画质与速度的新高度,如pMF-H的FID从2.29降至0.77,同时保持单步生成。
2. 可将多步扩散模型改造为高性能单步生成器,如JiT-L经微调后FID从291降至0.77,推理速度提升数十倍。
3. FID最低的模型未必视觉效果最佳,现代表征训练的模型在物体结构和细节上更胜一筹。

团队提出新标准FDrk
FDrk综合了6种表征空间的归一化FD比值,揭示当前生成模型仍有巨大提升空间。此外,FD-loss具备低门槛、强泛化能力,可作为轻量化插件嵌入现有流程,大幅降低高质量生成模型的工程难度。

论文arXiv:https://arxiv.org/abs/2604.28190

原文链接
本文链接:https://kx.umi6.com/article/35438.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
中国AI爆发式增长!2025年词元调用量达21100万亿 日均冲上百万亿
2026-04-29 12:18:53
工业和信息化部批准《人工智能 深度合成图像系统技术规范》等690项行业标准
2026-04-29 12:21:08
影史里程碑!《三星堆:未来往事》拿下首张AI电影龙标:今年上映
2026-05-03 14:26:30
SpaceX 招股书首次深度曝光,华尔街多空激烈对线
2026-04-30 17:43:03
苹果官方App误打包了Claude.md,这么大的公司也Vibe Coding啊?
2026-05-02 12:25:41
全球瞩目!斑陌易行闪耀硅谷,T6 无人车开启商用新纪元
2026-04-29 17:34:47
刚刚,“云计算一哥”版龙虾发布,奥特曼打着官司也要云站台
2026-04-29 13:20:35
苹果补课AI短板:iOS 27拟上线智能修图工具 内部测试仍“掉链子”
2026-04-29 16:34:09
2025年我国系统软件、人工智能产生的数据量达26.92泽字节 首次超过传统占主体地位的物联感知数据量
2026-04-29 12:23:17
国家数据局:全国已建成高质量数据集超11.6万个
2026-04-29 18:37:00
第三批上海市创新型企业总部授牌仪式举行
2026-04-29 12:22:13
Figure:生产效率大幅提升 可每小时生产1台机器人
2026-04-30 12:22:36
Sora之父“跑路”背后的五大真相是什么?
2026-04-30 17:39:21
24小时热文
更多
扫一扫体验小程序