GPDiT(Generative Pre-trained Autoregressive Diffusion Transformer)是北京大学、清华大学、StepFun公司及中国科学技术大学推出的新型模型,模型结合扩散模型和自回归模型的优势,基于自回归方式预测未来的潜在帧,自然地建模运动动态和语义一致性。GPDiT引入轻量级因果注意力机制,减少计算成本,推出一种无参数的旋转基时间条件策略,有效编码时间信息。GPDiT在视频生成、视频表示和少样本学习任务中均表现出色,展示了在多种视频建模任务中的多功能性和适应性。

GPDiT – 清华北大联合阶跃星辰等推出的视频生成模型  第1张
(图片来源网络,侵删)
GPDiT – 清华北大联合阶跃星辰等推出的视频生成模型  第2张
(图片来源网络,侵删)