质量无损,算力减半!达摩院开源视觉生成新架构DyDiT亮相ICLR 2025
达摩院在ICLR 2025上发布的DyDiT架构,通过动态调整时间步长与空间区域的计算分配,成功将DiT模型的推理算力削减51%,生成速度提升1.73倍,同时保持生成质量几乎无损。此方法仅需3%的微调成本,即可显著优化视觉生成任务的效率。
DiT架构虽能实现高质量的图像与视频生成,但其多步生成策略常伴随高昂的算力需求,限制了广泛应用。现有解决方案如高效采样、特征缓存等主要针对静态模型,仍存在冗余问题。DyDiT由达摩院、新加坡国立大学及清华大学联合开发,通过自适应计算分配,大幅降低算力消耗,同时确保生成质量。
DyDiT的核心在于根据时间步长动态调整模型宽度,并优先处理关键区域,减少对背景的计算投入。用户可根据自身资源限制灵活配置,实现性能与效率的最佳平衡。实验显示,DyDiT在ImageNet上的FID得分与原模型接近(2.27 vs 2.07),且浮点运算次数减少51%,生成速度提升1.73倍。
目前,DyDiT的训练与推理代码已开源,相关项目包括适配文生图模型FLUX的Dy-FLUX。达摩院今年共有13篇论文入选ICLR 2025,其中3篇获Spotlight荣誉。
论文链接:https://arxiv.org/abs/2410.03456
技术解读:https://mp.weixin.qq.com/s/yqYg272vIztflZ6NfX5zJw
开源链接:https://github.com/alibaba-damo-academy/DyDiT
原文链接
本文链接:https://kx.umi6.com/article/17756.html
转载请注明文章出处
相关推荐
换一换
DeepSeek的三场英伟达GTC秀
2025-02-16 11:23:01
效果媲美GPT-4o,一键搞定各类视觉生成任务丨港科广字节全新框架
2025-06-07 14:49:46
13.8倍吞吐提升!浙大上海AI Lab等提出视觉生成新范式,从“下一个token”到“下一个邻域”
2025-03-30 11:29:15
挑战扩散自回归统治!字节提出视觉生成第三种路线,让模型像人类一样边画边改
2026-05-13 23:00:53
CVPR 2026 生成式 AI 观察梳理:视觉模型开始重写默认设定
2026-04-30 11:18:37
DeepSeek让英伟达H20都被疯抢,但AI推理爆发不只靠囤卡
2025-03-18 22:53:52
工信部:系统推进6G技术研发、标准研制和应用培育 统筹推动算力布局、算力结构、算力调度等升级优化
2025-12-26 19:00:18
狂拿大模型明星订单,一家清华系HPC-AI Infra公司浮出水面
2025-07-29 13:34:21
电力变成全国算力 宁夏启动“人工智能+实体经济”深度赋能工程
2025-08-09 07:25:11
高通点赞广汽埃安N60智驾大赛获亚军,文远知行WRD 3.0亮相高通峰会
2026-06-08 12:23:30
AI眼镜卖爆!5月成交额暴涨超200% 大量老外来华强北扫货
2026-06-06 00:24:23
AI“吹大”的美股泡沫有多大?高盛:确有过热 但未至历史极端水平
2026-06-08 16:35:40
AI创业者集结!“2026新一代人工智能(深圳)创业创新大赛”正式启动
2026-06-08 18:39:30
690 文章
613426 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41