比扩散模型快50倍！OpenAI发布多模态模型实时生成进展，作者还是清华校友，把休假总裁Greg都炸出来了

2024-10-24 14:09:29

像素宇宙

发布在

科普

阅读：408

标题：比扩散模型快50倍！OpenAI发布多模态模型实时生成进展，作者还是清华校友，把休假总裁Greg都炸出来了

正文：两位清华校友在OpenAI发布了最新研究——生成图像的速度比扩散模型快50倍。

路橙和宋飏简化了一致性模型，仅用两步采样就使生成质量与扩散模型相媲美。他们将连续时间一致性模型的训练规模扩展至15亿参数，并在512×512分辨率的ImageNet数据集上完成训练。该模型在单张A100 GPU上无需推理优化即可在0.11秒内生成一个样本。

团队还通过定制系统优化进一步加速，为实时生成图像、音频和视频提供了新可能。论文仅有两位作者都是清华校友。

研究发布后受到广泛关注，甚至吸引了休假中的OpenAI总裁Greg Brockman的关注。他表示，多模态模型正迈向实时生成。

研究的关键在于两步采样和50倍加速。一致性模型通过一步直接将噪声转换为无噪声样本，而非逐步去噪。研究提出了一种改进连续时间一致性模型的综合方法，重点在于简化、稳定和扩展。

研究团队通过TrigFlow框架解决了训练不稳定的问题，并进行了多项改进，如采用恒等时间变换、位置时间嵌入和自适应双重归一化层。这些改进使得模型能在多个基准数据集上表现出色，CIFAR-10上的FID为2.06，ImageNet 64×64上的FID为1.48，ImageNet 512×512上的FID为1.88。模型仅需两步采样即可达到接近最佳扩散模型的生成质量，计算开销仅为后者的10%。

此外，研究还展示了随着教师扩散模型规模增大，一致性模型的改进效果成比例增加。模型质量的相对差异保持一致，绝对差异则减小。

作者简介

路橙 - 清华大学TSAIL实验室博士，导师朱军教授。 - 现任OpenAI研究科学家，对大规模深度生成模型和强化学习算法感兴趣。 - 研究领域包括一致性模型、扩散模型、归一化流和基于能量的模型及其在图像生成、3D生成和强化学习中的应用。

宋飏 - 清华大学数学和物理学士，斯坦福大学计算机科学博士。 - 研究目标是开发能够理解、生成并处理多种形态高维数据的强大AI模型。 - 目前专注于改进生成模型的训练方法、架构设计、对齐、鲁棒性、评估技巧及推理效率。 - 对探索生成模型作为科学发现工具的潜力感兴趣。

原文链接

本文链接：https://kx.umi6.com/article/7809.html

转载请注明文章出处

一致性模型