DiTCtrl – 港中文联合腾讯等机构推出的多提示视频生成方法

baidu09_com 2025-08-28 45 0

DiTCtrl是基于多模态扩散变换器（MM-DiT）架构的多提示方法，是香港中文大学和腾讯等机构联合推出的。DiTCtrl能在无需额外训练的情况下，实现多个文本提示之间的连贯视频生成，并保持内容和运动的一致性。基于分析MM-DiT的注意力机制，DiTCtrl采用KV共享和潜在混合策略，实现不同提示间的平滑过渡，提升视频生成的连贯性和自然度。在新基准MPVBench上，DiTCtrl在保持计算效率的同时，取得最先进的性能，标志着多提示视频生成技术的重要进展。