1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:比扩散模型快50倍!OpenAI发布多模态模型实时生成进展,作者还是清华校友,把休假总裁Greg都炸出来了

正文: 两位清华校友在OpenAI发布了最新研究——生成图像的速度比扩散模型快50倍。

路橙和宋飏简化了一致性模型,仅用两步采样就使生成质量与扩散模型相媲美。他们将连续时间一致性模型的训练规模扩展至15亿参数,并在512×512分辨率的ImageNet数据集上完成训练。该模型在单张A100 GPU上无需推理优化即可在0.11秒内生成一个样本。

团队还通过定制系统优化进一步加速,为实时生成图像、音频和视频提供了新可能。论文仅有两位作者都是清华校友。

研究发布后受到广泛关注,甚至吸引了休假中的OpenAI总裁Greg Brockman的关注。他表示,多模态模型正迈向实时生成。

研究的关键在于两步采样和50倍加速。一致性模型通过一步直接将噪声转换为无噪声样本,而非逐步去噪。研究提出了一种改进连续时间一致性模型的综合方法,重点在于简化、稳定和扩展。

研究团队通过TrigFlow框架解决了训练不稳定的问题,并进行了多项改进,如采用恒等时间变换、位置时间嵌入和自适应双重归一化层。这些改进使得模型能在多个基准数据集上表现出色,CIFAR-10上的FID为2.06,ImageNet 64×64上的FID为1.48,ImageNet 512×512上的FID为1.88。模型仅需两步采样即可达到接近最佳扩散模型的生成质量,计算开销仅为后者的10%。

此外,研究还展示了随着教师扩散模型规模增大,一致性模型的改进效果成比例增加。模型质量的相对差异保持一致,绝对差异则减小。

作者简介

路橙 - 清华大学TSAIL实验室博士,导师朱军教授。 - 现任OpenAI研究科学家,对大规模深度生成模型和强化学习算法感兴趣。 - 研究领域包括一致性模型、扩散模型、归一化流和基于能量的模型及其在图像生成、3D生成和强化学习中的应用。

宋飏 - 清华大学数学和物理学士,斯坦福大学计算机科学博士。 - 研究目标是开发能够理解、生成并处理多种形态高维数据的强大AI模型。 - 目前专注于改进生成模型的训练方法、架构设计、对齐、鲁棒性、评估技巧及推理效率。 - 对探索生成模型作为科学发现工具的潜力感兴趣。

原文链接
本文链接:https://kx.umi6.com/article/7809.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
实测商汤实时音视频交互模型5o:“造假”齐白石《虾》一眼识破!
2025-01-23 16:19:50
Karpathy都投的AI实时视频生成模型:直播立即转,无限时长零延迟
2025-07-19 14:53:50
华为开源7B多模态模型,视觉定位和OCR能力出色,你的昇腾端侧“新甜点”来了
2026-01-05 14:06:30
阿里深夜炸场!通义千问发布新一代端到端旗舰模型Qwen2.5-Omni
2025-03-27 04:26:09
行业首个:商汤发布并开源 NEO 原生多模态模型架构,实现视觉、语言深层统一
2025-12-02 23:39:14
“千人千面”的广告时代将被AI终结
2025-03-31 18:45:00
DeepSeek的Janus-Pro表现如何?
2025-01-28 15:49:21
对话阶跃星辰CEO姜大昕:两年发布16款多模态模型,DeepSeek证明投流模式不成立
2025-05-08 16:31:26
DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源
2025-01-28 01:38:40
多模态都是假的:最强模型数不清手指、认不出雷碧
2025-07-22 15:38:55
超越GPT-4o!阿里发布最强开源多模态模型Qwen2-VL,支持实时视频对话
2024-08-30 15:15:58
阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强
2025-03-25 09:46:01
阶跃星辰首届开放日:多模领先,智能终端等Agent应用全面涌现
2025-02-21 18:55:11
24小时热文
更多
扫一扫体验小程序