李飞飞团队提出架构设计新思路!无需从头训练,直接“嫁接”预训练模型关键组件
预训练模型能否作为探索新架构设计的“底座”?最新答案是:yes!传统上,从头训练模型是检验架构有效性的重要方式,但成本高昂。为此,李飞飞团队提出“嫁接”新思路,将预训练模型作为基础,通过修改其组件来研究新架构,类似于软件开发中的代码复用。
团队重点关注DiTs模型,构建了基于DiT-XL/2的测试平台,使用“嫁接”技术开发混合设计。结果显示,许多混合设计在不到2%的预训练计算量下,性能与原模型相差无几。例如,应用于文生图模型PixArt-Σ,生成速度提高1.43倍,质量仅下降不到2%。
“嫁接”成为轻量级、高效的架构探索工具。团队采用两阶段架构编辑法:激活蒸馏和轻量级微调。激活蒸馏通过回归任务学习原算子行为,轻量级微调减少误差累积。此外,自嫁接实验提供了对照基准。
实验分为三部分:混合架构实验验证替换可行性;文本到图像生成实验证明新架构有效性;并行化改造实验展示架构重组优势。尽管研究局限于DiT-XL/2和特定替换方案,但“嫁接”方法展现了巨大潜力,尤其在计算资源受限场景中。相关模型已开源。
论文链接:https://grafting.stanford.edu/
博客链接:https://www.liquid.ai/research/exploring-diffusion-transformer-designs-via-grafting
开源地址:https://huggingface.co/grafting
https://github.com/keshik6/grafting
原文链接
本文链接:https://kx.umi6.com/article/20528.html
转载请注明文章出处
相关推荐
换一换
李开复:最新预训练模型Yi-Lightning超越GPT-4o,中美顶尖模型只差5个月
2024-10-16 23:44:09
李开复:零一万物绝不放弃预训练模型
2024-10-16 11:25:57
李开复:零一万物没有放弃预训练模型,新模型也即将推出
2024-10-12 16:36:49
李飞飞团队提出架构设计新思路!无需从头训练,直接“嫁接”预训练模型关键组件
2025-06-20 15:00:06
1.3亿美元!LiblibAI拿下国内AI应用赛道年度最大融资
2025-10-23 15:06:43
美光出样 192GB SOCAMM2 内存模组:容量提升 50%,能效提升 20+%
2025-10-23 15:09:26
“996”算偷懒 硅谷AI精英每周狂干100小时!
2025-10-24 12:38:25
我国网络安全法修正草案拟完善 AI 伦理规范,加强安全监管
2025-10-23 15:10:09
网易云信10周年宣布品牌升级,从“基础通信管道”到“AI交互引擎”
2025-10-23 15:10:38
智元「灵创」平台来了!0 代码、0 门槛,人人都是机器人训练大师
2025-10-24 17:46:58
快手进军AICoding赛道
2025-10-23 16:11:06
SEE Conf 2025:开启体验科技的新十年
2025-10-24 17:46:00
干家务一小时挣1000元,具身智能时代人类新岗位
2025-10-24 12:34:34
531 文章
241366 浏览
24小时热文
更多
-
2025-10-25 08:14:19 -
2025-10-24 22:57:14 -
2025-10-24 21:54:02