何恺明团队提出分形生成模型,将计算效率提高4000倍,首次实现高分辨率逐像素图像生成。他们将生成模型抽象为“原子模块”,通过递归调用这些模块构建自相似分形架构。该模型受数学分形思想启发,使用参数化神经网络作为分形生成器,从数据中学习递归法则,适用于材料、蛋白质等领域。
在逐像素图像生成任务中,该模型表现优异。团队采用“分而治之”的策略,将自回归模型抽象成模块化单元。每个级别的生成器可从单个输入生成多个输出,使得分形框架在仅需线性数量的递归级别下实现输出的指数级增长。最终,自回归模型接收前一个生成器的输出,逐步细化生成过程。
在ImageNet 256×256数据集上,该模型生成一张图像需1.29秒,测试指标达到3.14bits/dim的负对数似然,超越现有自回归模型。此外,该模型在图像质量和计算效率上均表现出色,尤其在逐个像素生成高分辨率图像时,效率提升显著。
团队还结合掩码重建技术,实验表明该模型能准确预测被掩蔽的像素,有效捕捉高级语义。该成果由MIT何恺明团队和谷歌DeepMind全华人班底完成,一作黎天鸿本科毕业于清华姚班,现为MIT博士后。
原文链接
本文链接:https://kx.umi6.com/article/14365.html
转载请注明文章出处
相关推荐
.png)
换一换
何恺明开辟分形生成模型新范式!计算效率提高4000倍,首次实现高分辨率逐像素生成
2025-02-26 13:32:44
生成式AI可能迎来下一个风口:TTT模型
2024-07-18 11:43:10
深圳:支持开展人工智能终端芯片核心技术攻关 提高端侧整体计算效率
2025-03-03 14:32:21
459 文章
83788 浏览
24小时热文
更多

-
2025-07-20 08:01:35
-
2025-07-19 22:57:32
-
2025-07-19 21:58:20