1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:比扩散模型快50倍!OpenAI发布多模态模型实时生成进展,作者还是清华校友,把休假总裁Greg都炸出来了

正文: 两位清华校友在OpenAI发布了最新研究——生成图像的速度比扩散模型快50倍。

路橙和宋飏简化了一致性模型,仅用两步采样就使生成质量与扩散模型相媲美。他们将连续时间一致性模型的训练规模扩展至15亿参数,并在512×512分辨率的ImageNet数据集上完成训练。该模型在单张A100 GPU上无需推理优化即可在0.11秒内生成一个样本。

团队还通过定制系统优化进一步加速,为实时生成图像、音频和视频提供了新可能。论文仅有两位作者都是清华校友。

研究发布后受到广泛关注,甚至吸引了休假中的OpenAI总裁Greg Brockman的关注。他表示,多模态模型正迈向实时生成。

研究的关键在于两步采样和50倍加速。一致性模型通过一步直接将噪声转换为无噪声样本,而非逐步去噪。研究提出了一种改进连续时间一致性模型的综合方法,重点在于简化、稳定和扩展。

研究团队通过TrigFlow框架解决了训练不稳定的问题,并进行了多项改进,如采用恒等时间变换、位置时间嵌入和自适应双重归一化层。这些改进使得模型能在多个基准数据集上表现出色,CIFAR-10上的FID为2.06,ImageNet 64×64上的FID为1.48,ImageNet 512×512上的FID为1.88。模型仅需两步采样即可达到接近最佳扩散模型的生成质量,计算开销仅为后者的10%。

此外,研究还展示了随着教师扩散模型规模增大,一致性模型的改进效果成比例增加。模型质量的相对差异保持一致,绝对差异则减小。

作者简介

路橙 - 清华大学TSAIL实验室博士,导师朱军教授。 - 现任OpenAI研究科学家,对大规模深度生成模型和强化学习算法感兴趣。 - 研究领域包括一致性模型、扩散模型、归一化流和基于能量的模型及其在图像生成、3D生成和强化学习中的应用。

宋飏 - 清华大学数学和物理学士,斯坦福大学计算机科学博士。 - 研究目标是开发能够理解、生成并处理多种形态高维数据的强大AI模型。 - 目前专注于改进生成模型的训练方法、架构设计、对齐、鲁棒性、评估技巧及推理效率。 - 对探索生成模型作为科学发现工具的潜力感兴趣。

原文链接
本文链接:https://kx.umi6.com/article/7809.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
阿里云魔搭社区:首发阶跃星辰最新开源两款多模态模型 已上架超4万个开源模型
2025-02-21 13:58:38
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
2024-11-11 16:11:01
Karpathy都投的AI实时视频生成模型:直播立即转,无限时长零延迟
2025-07-19 14:53:50
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略
2025-07-09 14:06:26
阶跃生态开放日:聚焦智能终端 Agent,率先布局端侧全产业
2025-02-25 17:06:04
谷歌正式发布 Gemma 3n 小钢炮模型:2GB 内存本地玩转 AI 多模态
2025-06-27 16:11:19
多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距
2025-06-07 13:49:19
3D打印火出圈了?一众网友秀“成果” 幕后推手竟是这款AI模型
2025-09-01 13:19:49
41个榜单SOTA!智谱最新开源GLM-4.5V实测:看图猜地址、视频秒变代码
2025-08-12 16:19:29
Ilya观点得证!仅靠预测下一个token统一图像文本视频,智源发布原生多模态世界模型Emu3
2024-10-21 13:24:07
全球最大开源视频模型,现在也Created in China了,阶跃出品
2025-02-18 13:15:12
智谱首个免费多模态模型 GLM-4V-Flash 上线,支持图像描述生成、视觉问答等
2024-12-09 22:35:42
鹅厂放大招,混元图像2.0「边说边画」:描述完,图也生成好了
2025-05-16 17:18:33
24小时热文
更多
扫一扫体验小程序