CustomVideoX – 中科大联合浙大等推出的个性化视频生成框架

baidu09_com 2025-08-28 42 0

CustomVideoX 是中科大和浙大等联合提出的创新的个性化框架，通过参考图像和文本描述生成高质量的定制化视频。框架基于视频扩散变换器（Video Diffusion Transformer），通过零样本学习的方式，仅训练 LoRA 参数来提取参考图像特征，实现高效的个性化视频生成。CustomVideoX 的核心技术包括：3D 参考注意力机制，支持参考图像特征与视频帧在空间和时间维度上直接交互；时间感知注意力偏差（TAB）策略，通过动态调整参考特征的影响，增强生成视频的时间连贯性；以及实体区域感知增强（ERAE）模块，通过语义对齐突出关键实体区域。解决了传统方法中时间不一致性和质量下降的问题。