CustomVideoX 是中科大和浙大等联合提出的创新的个性化框架,通过参考图像和文本描述生成高质量的定制化视频。框架基于视频扩散变换器(Video Diffusion Transformer),通过零样本学习的方式,仅训练 LoRA 参数来提取参考图像特征,实现高效的个性化视频生成。CustomVideoX 的核心技术包括:3D 参考注意力机制,支持参考图像特征与视频帧在空间和时间维度上直接交互;时间感知注意力偏差(TAB)策略,通过动态调整参考特征的影响,增强生成视频的时间连贯性;以及实体区域感知增强(ERAE)模块,通过语义对齐突出关键实体区域。解决了传统方法中时间不一致性和质量下降的问题。


全部评论
留言在赶来的路上...
发表评论