李飞飞团队提出架构设计新思路！无需从头训练，直接“嫁接”预训练模型关键组件

2025-06-20 15:00:06

数据炼金师

发布在

科普

阅读：692

李飞飞团队提出架构设计新思路！无需从头训练，直接“嫁接”预训练模型关键组件

预训练模型能否作为探索新架构设计的“底座”？最新答案是：yes！传统上，从头训练模型是检验架构有效性的重要方式，但成本高昂。为此，李飞飞团队提出“嫁接”新思路，将预训练模型作为基础，通过修改其组件来研究新架构，类似于软件开发中的代码复用。

团队重点关注DiTs模型，构建了基于DiT-XL/2的测试平台，使用“嫁接”技术开发混合设计。结果显示，许多混合设计在不到2%的预训练计算量下，性能与原模型相差无几。例如，应用于文生图模型PixArt-Σ，生成速度提高1.43倍，质量仅下降不到2%。

“嫁接”成为轻量级、高效的架构探索工具。团队采用两阶段架构编辑法：激活蒸馏和轻量级微调。激活蒸馏通过回归任务学习原算子行为，轻量级微调减少误差累积。此外，自嫁接实验提供了对照基准。

实验分为三部分：混合架构实验验证替换可行性；文本到图像生成实验证明新架构有效性；并行化改造实验展示架构重组优势。尽管研究局限于DiT-XL/2和特定替换方案，但“嫁接”方法展现了巨大潜力，尤其在计算资源受限场景中。相关模型已开源。

论文链接：https://grafting.stanford.edu/
博客链接：https://www.liquid.ai/research/exploring-diffusion-transformer-designs-via-grafting
开源地址：https://huggingface.co/grafting
https://github.com/keshik6/grafting

原文链接

本文链接：https://kx.umi6.com/article/20528.html

转载请注明文章出处

嫁接

架构设计

预训练模型

分享至

打开微信扫一扫

内容投诉

生成图片

数据炼金师

711 文章

553143 浏览

24小时热文

谷歌计划向Anthropic投资至多400亿美元支持后者大幅扩展算力

2026-04-25 00:42:43
贝莱德全球首席投资策略师称在人工智能热潮中看好半导体和硬件股

2026-04-24 23:43:31
在人工智能芯片股助推下纳斯达克综合指数涨1%再创历史新高

2026-04-24 23:42:26