1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:比扩散模型快50倍!OpenAI发布多模态模型实时生成进展,作者还是清华校友,把休假总裁Greg都炸出来了

正文: 两位清华校友在OpenAI发布了最新研究——生成图像的速度比扩散模型快50倍。

路橙和宋飏简化了一致性模型,仅用两步采样就使生成质量与扩散模型相媲美。他们将连续时间一致性模型的训练规模扩展至15亿参数,并在512×512分辨率的ImageNet数据集上完成训练。该模型在单张A100 GPU上无需推理优化即可在0.11秒内生成一个样本。

团队还通过定制系统优化进一步加速,为实时生成图像、音频和视频提供了新可能。论文仅有两位作者都是清华校友。

研究发布后受到广泛关注,甚至吸引了休假中的OpenAI总裁Greg Brockman的关注。他表示,多模态模型正迈向实时生成。

研究的关键在于两步采样和50倍加速。一致性模型通过一步直接将噪声转换为无噪声样本,而非逐步去噪。研究提出了一种改进连续时间一致性模型的综合方法,重点在于简化、稳定和扩展。

研究团队通过TrigFlow框架解决了训练不稳定的问题,并进行了多项改进,如采用恒等时间变换、位置时间嵌入和自适应双重归一化层。这些改进使得模型能在多个基准数据集上表现出色,CIFAR-10上的FID为2.06,ImageNet 64×64上的FID为1.48,ImageNet 512×512上的FID为1.88。模型仅需两步采样即可达到接近最佳扩散模型的生成质量,计算开销仅为后者的10%。

此外,研究还展示了随着教师扩散模型规模增大,一致性模型的改进效果成比例增加。模型质量的相对差异保持一致,绝对差异则减小。

作者简介

路橙 - 清华大学TSAIL实验室博士,导师朱军教授。 - 现任OpenAI研究科学家,对大规模深度生成模型和强化学习算法感兴趣。 - 研究领域包括一致性模型、扩散模型、归一化流和基于能量的模型及其在图像生成、3D生成和强化学习中的应用。

宋飏 - 清华大学数学和物理学士,斯坦福大学计算机科学博士。 - 研究目标是开发能够理解、生成并处理多种形态高维数据的强大AI模型。 - 目前专注于改进生成模型的训练方法、架构设计、对齐、鲁棒性、评估技巧及推理效率。 - 对探索生成模型作为科学发现工具的潜力感兴趣。

原文链接
本文链接:https://kx.umi6.com/article/7809.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Kimi最新多模态模型K2-VL提前现身
2026-01-05 15:13:56
超GPT-4o,1240亿参数!最强开源多模态模型 Pixtral Large!
2024-11-19 14:50:08
对话阶跃星辰CEO姜大昕:两年发布16款多模态模型,DeepSeek证明投流模式不成立
2025-05-08 16:31:26
阶跃星辰开源 10B 多模态模型 Step3-VL-10B,性能媲美千亿级大模型
2026-01-20 19:24:31
阶跃生态开放日:聚焦智能终端 Agent,率先布局端侧全产业
2025-02-25 17:06:04
超越GPT-4o!阿里发布最强开源多模态模型Qwen2-VL,支持实时视频对话
2024-08-30 15:15:58
阿里通义千问宣布推出多模态模型 Qwen VLo,实现从感知到生成的跨越
2025-06-28 00:15:30
AI科学家能不能理解普通人对AI的需求,怎么理解?
2024-10-09 10:59:30
3D打印火出圈了?一众网友秀“成果” 幕后推手竟是这款AI模型
2025-09-01 13:19:49
实测商汤实时音视频交互模型5o:“造假”齐白石《虾》一眼识破!
2025-01-23 16:19:50
多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距
2025-06-07 13:49:19
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
2024-11-11 16:11:01
“千人千面”的广告时代将被AI终结
2025-03-31 18:45:00
24小时热文
更多
扫一扫体验小程序