DiTCtrl是基于多模态扩散变换器(MM-DiT)架构的多提示方法,是香港中文大学和腾讯等机构联合推出的。DiTCtrl能在无需额外训练的情况下,实现多个文本提示之间的连贯视频生成,并保持内容和运动的一致性。基于分析MM-DiT的注意力机制,DiTCtrl采用KV共享和潜在混合策略,实现不同提示间的平滑过渡,提升视频生成的连贯性和自然度。在新基准MPVBench上,DiTCtrl在保持计算效率的同时,取得最先进的性能,标志着多提示视频生成技术的重要进展。

DiTCtrl – 港中文联合腾讯等机构推出的多提示视频生成方法  第1张
(图片来源网络,侵删)
DiTCtrl – 港中文联合腾讯等机构推出的多提示视频生成方法  第2张
(图片来源网络,侵删)