李飞飞团队提出架构设计新思路!无需从头训练,直接“嫁接”预训练模型关键组件
预训练模型能否作为探索新架构设计的“底座”?最新答案是:yes!传统上,从头训练模型是检验架构有效性的重要方式,但成本高昂。为此,李飞飞团队提出“嫁接”新思路,将预训练模型作为基础,通过修改其组件来研究新架构,类似于软件开发中的代码复用。
团队重点关注DiTs模型,构建了基于DiT-XL/2的测试平台,使用“嫁接”技术开发混合设计。结果显示,许多混合设计在不到2%的预训练计算量下,性能与原模型相差无几。例如,应用于文生图模型PixArt-Σ,生成速度提高1.43倍,质量仅下降不到2%。
“嫁接”成为轻量级、高效的架构探索工具。团队采用两阶段架构编辑法:激活蒸馏和轻量级微调。激活蒸馏通过回归任务学习原算子行为,轻量级微调减少误差累积。此外,自嫁接实验提供了对照基准。
实验分为三部分:混合架构实验验证替换可行性;文本到图像生成实验证明新架构有效性;并行化改造实验展示架构重组优势。尽管研究局限于DiT-XL/2和特定替换方案,但“嫁接”方法展现了巨大潜力,尤其在计算资源受限场景中。相关模型已开源。
论文链接:https://grafting.stanford.edu/
博客链接:https://www.liquid.ai/research/exploring-diffusion-transformer-designs-via-grafting
开源地址:https://huggingface.co/grafting
https://github.com/keshik6/grafting
原文链接
本文链接:https://kx.umi6.com/article/20528.html
转载请注明文章出处
相关推荐
.png)
换一换
李开复:最新预训练模型Yi-Lightning超越GPT-4o,中美顶尖模型只差5个月
2024-10-16 23:44:09
李飞飞团队提出架构设计新思路!无需从头训练,直接“嫁接”预训练模型关键组件
2025-06-20 15:00:06
李开复:零一万物绝不放弃预训练模型
2024-10-16 11:25:57
415 文章
58862 浏览
24小时热文
更多

-
2025-07-19 12:53:03
-
2025-07-19 12:51:53
-
2025-07-19 11:52:20