李飞飞团队提出架构设计新思路!无需从头训练,直接“嫁接”预训练模型关键组件
预训练模型能否作为探索新架构设计的“底座”?最新答案是:yes!传统上,从头训练模型是检验架构有效性的重要方式,但成本高昂。为此,李飞飞团队提出“嫁接”新思路,将预训练模型作为基础,通过修改其组件来研究新架构,类似于软件开发中的代码复用。
团队重点关注DiTs模型,构建了基于DiT-XL/2的测试平台,使用“嫁接”技术开发混合设计。结果显示,许多混合设计在不到2%的预训练计算量下,性能与原模型相差无几。例如,应用于文生图模型PixArt-Σ,生成速度提高1.43倍,质量仅下降不到2%。
“嫁接”成为轻量级、高效的架构探索工具。团队采用两阶段架构编辑法:激活蒸馏和轻量级微调。激活蒸馏通过回归任务学习原算子行为,轻量级微调减少误差累积。此外,自嫁接实验提供了对照基准。
实验分为三部分:混合架构实验验证替换可行性;文本到图像生成实验证明新架构有效性;并行化改造实验展示架构重组优势。尽管研究局限于DiT-XL/2和特定替换方案,但“嫁接”方法展现了巨大潜力,尤其在计算资源受限场景中。相关模型已开源。
论文链接:https://grafting.stanford.edu/
博客链接:https://www.liquid.ai/research/exploring-diffusion-transformer-designs-via-grafting
开源地址:https://huggingface.co/grafting
https://github.com/keshik6/grafting
原文链接
本文链接:https://kx.umi6.com/article/20528.html
转载请注明文章出处
相关推荐
换一换
李开复:零一万物绝不放弃预训练模型
2024-10-16 11:25:57
李开复:零一万物没有放弃预训练模型,新模型也即将推出
2024-10-12 16:36:49
李开复:最新预训练模型Yi-Lightning超越GPT-4o,中美顶尖模型只差5个月
2024-10-16 23:44:09
天下苦「调参」久矣!MIT师生推出全新RandOpt算法
2026-03-16 16:07:29
CPU“严重供不应求” 供应链称国际大厂酝酿Q3再涨价
2026-04-23 16:19:37
DeepSeek:预计下半年昇腾950超节点批量上市后 V4-Pro模型价格会大幅下调
2026-04-24 14:16:39
真有人做AI小猫啊?!生产力和情绪价值都拉满了
2026-04-24 17:21:57
贝莱德全球首席投资策略师称在人工智能热潮中看好半导体和硬件股
2026-04-24 23:43:31
优必选发布Thinker cosmos:加码开发者生态,推动人形机器人走向规模化
2026-04-24 20:29:51
特斯拉:Cortex 2算力集群现已上线 并已开始运行训练任务
2026-04-23 08:58:08
国家人工智能产业投资基金等入股黑湖科技
2026-04-23 11:03:52
国家药监局:以“人工智能+药品监管”建设为主线 全力推进药品智慧监管建设和统计各项工作
2026-04-24 18:31:29
公募基金一季度加仓科技制造 减持信息技术和金融板块
2026-04-23 07:54:20
711 文章
553143 浏览
24小时热文
更多
-
2026-04-25 00:42:43 -
2026-04-24 23:43:31 -
2026-04-24 23:42:26