李飞飞团队提出架构设计新思路!无需从头训练,直接“嫁接”预训练模型关键组件
预训练模型能否作为探索新架构设计的“底座”?最新答案是:yes!传统上,从头训练模型是检验架构有效性的重要方式,但成本高昂。为此,李飞飞团队提出“嫁接”新思路,将预训练模型作为基础,通过修改其组件来研究新架构,类似于软件开发中的代码复用。
团队重点关注DiTs模型,构建了基于DiT-XL/2的测试平台,使用“嫁接”技术开发混合设计。结果显示,许多混合设计在不到2%的预训练计算量下,性能与原模型相差无几。例如,应用于文生图模型PixArt-Σ,生成速度提高1.43倍,质量仅下降不到2%。
“嫁接”成为轻量级、高效的架构探索工具。团队采用两阶段架构编辑法:激活蒸馏和轻量级微调。激活蒸馏通过回归任务学习原算子行为,轻量级微调减少误差累积。此外,自嫁接实验提供了对照基准。
实验分为三部分:混合架构实验验证替换可行性;文本到图像生成实验证明新架构有效性;并行化改造实验展示架构重组优势。尽管研究局限于DiT-XL/2和特定替换方案,但“嫁接”方法展现了巨大潜力,尤其在计算资源受限场景中。相关模型已开源。
论文链接:https://grafting.stanford.edu/
博客链接:https://www.liquid.ai/research/exploring-diffusion-transformer-designs-via-grafting
开源地址:https://huggingface.co/grafting
https://github.com/keshik6/grafting
原文链接
本文链接:https://kx.umi6.com/article/20528.html
转载请注明文章出处
相关推荐
换一换
李开复:零一万物绝不放弃预训练模型
2024-10-16 11:25:57
天下苦「调参」久矣!MIT师生推出全新RandOpt算法
2026-03-16 16:07:29
李开复:零一万物没有放弃预训练模型,新模型也即将推出
2024-10-12 16:36:49
李开复:最新预训练模型Yi-Lightning超越GPT-4o,中美顶尖模型只差5个月
2024-10-16 23:44:09
慕尼黑工大Johannes Betz 教授:时速300公里的自动驾驶超车 | ICRA 2026
2026-06-04 16:14:04
高德发布ABot-Earth0.5:跨越2D蒸馏模式,以3D原生驱动高一致性场景生成
2026-06-08 17:40:19
国产之“光”爆单!AI算力需求太猛:光纤光缆企业订单排到2027年
2026-06-04 00:45:08
从超级个体到超级团队,腾讯云发布WorkBuddy企业版
2026-06-05 17:06:00
独家丨华为天才少年王裕鑫创业,首月完成数千万级首轮融资
2026-06-08 12:28:00
GitHub 被AI打穿了
2026-06-05 19:15:06
AI需求井喷!台积电CEO:数年难以填满芯片缺口
2026-06-04 17:14:24
LG砸重金采购万片英伟达GPU 全速冲刺AI转型
2026-06-07 23:56:41
有人靠CPU把AI算力密度卷到了新高度
2026-06-05 22:17:47
736 文章
637188 浏览
24小时热文
更多
-
2026-06-09 13:18:37 -
2026-06-09 13:17:04 -
2026-06-09 12:19:23