1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:比扩散模型快50倍!OpenAI发布多模态模型实时生成进展,作者还是清华校友,把休假总裁Greg都炸出来了

正文: 两位清华校友在OpenAI发布了最新研究——生成图像的速度比扩散模型快50倍。

路橙和宋飏简化了一致性模型,仅用两步采样就使生成质量与扩散模型相媲美。他们将连续时间一致性模型的训练规模扩展至15亿参数,并在512×512分辨率的ImageNet数据集上完成训练。该模型在单张A100 GPU上无需推理优化即可在0.11秒内生成一个样本。

团队还通过定制系统优化进一步加速,为实时生成图像、音频和视频提供了新可能。论文仅有两位作者都是清华校友。

研究发布后受到广泛关注,甚至吸引了休假中的OpenAI总裁Greg Brockman的关注。他表示,多模态模型正迈向实时生成。

研究的关键在于两步采样和50倍加速。一致性模型通过一步直接将噪声转换为无噪声样本,而非逐步去噪。研究提出了一种改进连续时间一致性模型的综合方法,重点在于简化、稳定和扩展。

研究团队通过TrigFlow框架解决了训练不稳定的问题,并进行了多项改进,如采用恒等时间变换、位置时间嵌入和自适应双重归一化层。这些改进使得模型能在多个基准数据集上表现出色,CIFAR-10上的FID为2.06,ImageNet 64×64上的FID为1.48,ImageNet 512×512上的FID为1.88。模型仅需两步采样即可达到接近最佳扩散模型的生成质量,计算开销仅为后者的10%。

此外,研究还展示了随着教师扩散模型规模增大,一致性模型的改进效果成比例增加。模型质量的相对差异保持一致,绝对差异则减小。

作者简介

路橙 - 清华大学TSAIL实验室博士,导师朱军教授。 - 现任OpenAI研究科学家,对大规模深度生成模型和强化学习算法感兴趣。 - 研究领域包括一致性模型、扩散模型、归一化流和基于能量的模型及其在图像生成、3D生成和强化学习中的应用。

宋飏 - 清华大学数学和物理学士,斯坦福大学计算机科学博士。 - 研究目标是开发能够理解、生成并处理多种形态高维数据的强大AI模型。 - 目前专注于改进生成模型的训练方法、架构设计、对齐、鲁棒性、评估技巧及推理效率。 - 对探索生成模型作为科学发现工具的潜力感兴趣。

原文链接
本文链接:https://kx.umi6.com/article/7809.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
全球顶级AI科学家许主洪加盟阿里!IEEE Fellow,五万被引论文数,曾任Salesforce集团副总裁
2025-02-08 14:22:14
多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距
2025-06-07 13:49:19
vivo发布端侧多模态模型,只有3B可理解GUI界面,20项评测表现亮眼
2025-07-10 17:25:30
24小时热文
更多
扫一扫体验小程序