质量无损，算力砍半！达摩院开源视觉生成新架构，出道即SOTA｜ICLR 2025

2025-04-25 15:12:35

Oasis

发布在

科普

阅读：1073

质量无损，算力减半！达摩院开源视觉生成新架构DyDiT亮相ICLR 2025

达摩院在ICLR 2025上发布的DyDiT架构，通过动态调整时间步长与空间区域的计算分配，成功将DiT模型的推理算力削减51%，生成速度提升1.73倍，同时保持生成质量几乎无损。此方法仅需3%的微调成本，即可显著优化视觉生成任务的效率。

DiT架构虽能实现高质量的图像与视频生成，但其多步生成策略常伴随高昂的算力需求，限制了广泛应用。现有解决方案如高效采样、特征缓存等主要针对静态模型，仍存在冗余问题。DyDiT由达摩院、新加坡国立大学及清华大学联合开发，通过自适应计算分配，大幅降低算力消耗，同时确保生成质量。

DyDiT的核心在于根据时间步长动态调整模型宽度，并优先处理关键区域，减少对背景的计算投入。用户可根据自身资源限制灵活配置，实现性能与效率的最佳平衡。实验显示，DyDiT在ImageNet上的FID得分与原模型接近（2.27 vs 2.07），且浮点运算次数减少51%，生成速度提升1.73倍。

目前，DyDiT的训练与推理代码已开源，相关项目包括适配文生图模型FLUX的Dy-FLUX。达摩院今年共有13篇论文入选ICLR 2025，其中3篇获Spotlight荣誉。

论文链接：https://arxiv.org/abs/2410.03456
技术解读：https://mp.weixin.qq.com/s/yqYg272vIztflZ6NfX5zJw
开源链接：https://github.com/alibaba-damo-academy/DyDiT

原文链接

本文链接：https://kx.umi6.com/article/17756.html

转载请注明文章出处

DyDiT

算力优化

视觉生成

分享至

打开微信扫一扫

内容投诉

生成图片

Oasis

697 文章

769048 浏览

24小时热文