MarDini – Meta联合KAUST推出的视频生成扩散模型

baidu09_com 2025-08-29 36 0

MarDini是新型的视频扩散模型，融合掩码自回归（MAR）和扩散模型（DM）的优势，用在大规模视频生成。模型能处理任意数量和位置的掩码帧，支持视频插值、图像到视频生成及视频扩展等多种任务。MarDini将大部分计算资源分配给低分辨率的规划模型，实现空间-时间注意力机制的大规模应用，提高视频生成的效率和灵活性。MarDini能从无标签数据中从头开始训练，无需依赖图像生成的预训练，展现出优异的可扩展性和效率。