兼得快与好!训练新范式TiM,原生支持FSDP+Flash Attention

2025年9月14日
news

(图片来自网络)




兼得快与好!训练新范式TiM,原生支持FSDP+Flash Attention


生成式AI的发展中,兼顾“生成速度”与“生成质量”一直是核心挑战。从Stable Diffusion到DiT、FLUX系列,社区对提升生成效率、优化输出质量的探索始终围绕扩散模型与少步模型展开,却难以突破固有缺陷。这便是训练目标引发的“生成质量”与“生成速度”矛盾根源——要么只学习无穷小局部动力学,要么只学习有限区间的端点映射,两者都存在内在限制。一项新研究提出了名为Transition Model(TiM)的新训练范式,试图从根本上解决这个问题。



什么是Transition Model(TiM)?它放弃了传统扩散模型学习“瞬时速度场”或少步模型学习“端点映射”的做法,转而直接建模任意两个时间点之间的完整状态转移。这意味着TiM在理论上支持任意步长的采样,并能将生成过程分解为多段粒度可灵活调整的细化轨迹。




  • TiM的核心设计一:实现“灵活的单步尺寸”

  • TiM的核心设计二:实现“多段细化轨迹的生成路径”



TiM的数学本质区别于传统模型。与扩散模型(建模瞬时速度场,局限性是瞬时速度需要时间区间趋近于0)、Meanflow(核心是建模平均速度场,局限性是丢了局部优化细节、质量容易饱和)不同,TiM做的是任意时间区间的任意状态间的状态转移,可认为是任意速度场,包含瞬时和平均速度;从解的形式看,扩散模型是局部PF-ODE的数值解,Meanflow是局部平均速度场解集,TiM求的是全局生成路径的解的流型。



TiM的训练与扩展性也极具优势。通过差分推导方程(DDE)替代依赖雅可比—向量乘积(JVP)的方法,原生兼容FSDP(分布式并行)和Flash Attention(加速注意力机制),训练更高效可扩展;同时通过时间重参化+核函数的损失加权策略,降低梯度方差、提升训练稳定性。



实验验证上,TiM-865M参数模型在多分辨率与多横纵比设置下,少步生成即可超越FLUX.1-Schnell/Dev(12B参数)的速度-质量权衡,兼顾快与好,为生成式AI发展提供新范式。



(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-09-14 14
    TiM作为新范式,给生成式AI future指明方向了,期待更多应用。
  • 网友9 2025-09-14 14
    从理论到实践,TiM完整解决了速度质量难两全的问题,很满意。
  • 网友8 2025-09-14 14
    时间重参化和损失加权策略很聪明,训练稳定性提升明显。
  • 网友7 2025-09-14 14
    实验结果超越大模型,参数又少,性价比超高,值得推广。
  • 网友6 2025-09-14 14
    通过直接建模状态转移,TiM确实解决了传统模型的局限,训练目标更合理了。
  • 网友5 2025-09-14 14
    这种新范式让生成式AI更灵活了,以后应用场景更多。
  • 网友4 2025-09-14 14
    差分推导和FSDP的兼容真的很重要,训练可扩展性提升很多。
  • 网友3 2025-09-14 14
    用TiM之后生成效率提高了不少,生成质量也稳定,不错。
  • 网友2 2025-09-14 14
    从扩散模型到TiM,训练范式进步明显,专业角度确实解决了速度质量矛盾。
  • 网友1 2025-09-14 14
    这个技术太厉害了, finally能同时兼顾速度和质量,以后生成图片会更方便!
查看“兼得快与好!训练新范式TiM,原生支持FSDP+Flash Attention”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙