Next-Frame Diffusion(NFD)是北京大学和微软研究院联合推出的自回归模型,结合扩散模型的高保真生成能力和自回归模型的因果性和可控性。Next-Frame Diffusion基于块因果注意力机制(Block-wise Causal Attention)和扩散变换器(Diffusion Transformer)实现高效的帧级生成。模型在保持视频质量和连贯性的同时,实现超过30FPS的实时视频生成。模型引入、一致性蒸馏(Consistency Distillation)和推测性采样(Speculative Sampling)等技术,进一步提升采样效率。模型在大规模动作条件视频生成任务中表现出色,显著优于现有方法。

Next-baidu09Frame Diffusion – 北大联合微软推出的自回归视频生成模型  第1张
(图片来源网络,侵删)