兼得快与好！训练新范式TiM，原生支持FSDP+Flash Attention

2025-09-14 14:39:50

QuantumHacker

发布在

科普

阅读：426

兼得快与好！训练新范式TiM，原生支持FSDP+Flash Attention

生成式AI的速度与质量能否兼得？社区通过扩散模型和Few-step模型探索加速与提质，但两者各有局限：扩散模型追求高保真却需大量计算步数（NFEs），Few-step模型虽快却常遇“质量天花板”。这一矛盾源于训练目标的限制——要么监督局部瞬时动力学，要么学习固定跨度的端点映射。

新研究提出Transition Model（TiM），试图从根源解决问题。TiM直接建模任意两个时间点之间的状态转移，理论上支持任意步长采样，并能灵活分解生成路径为多段细化轨迹，从而兼顾速度与质量。

扩散模型学习瞬时速度场，依赖极小步长维持精度；Few-step模型学习端点映射，细节丢失导致增步后收益饱和。两者的缺陷均源于监督信号粒度的限制。理想的训练目标应结合“灵活步长”与“多段细化”，这正是TiM的核心设计。

数学上，TiM不同于扩散模型（瞬时速度场）和Meanflow（平均速度场），而是建模全局生成路径上的解流形，可退化为两种特殊情况，兼具灵活性与普适性。

在Text-to-Image任务中，865M参数的TiM在不同分辨率、横纵比下表现优异，明确超越FLUX.1-Schnell（12B参数）和FLUX.1-Dev（12B参数），且分辨率适应性更强。

差分推导方程（DDE）
TiM用有限差分近似替代雅可比向量积（JVP），前向传播更高效，天然兼容FSDP和FlashAttention，训练速度提升2倍。
损失加权策略
引入正切空间变换的时间重参数化，优先短间隔转移以降低梯度方差，提升训练稳定性。

TiM通过建模任意时刻间的状态转移，突破了传统生成模型的速度与质量矛盾，在理论与实践中均表现出色。其高效、稳定且可扩展的特性，为生成式AI提供了全新范式。

原文链接

本文链接：https://kx.umi6.com/article/25195.html

转载请注明文章出处

FSDP

Transition Model

生成模型

分享至

打开微信扫一扫

内容投诉

生成图片

QuantumHacker

598 文章

382985 浏览

24小时热文