KeySync 是帝国理工学院和弗罗茨瓦夫大学推出的用在高分辨率口型同步框架,支持将输入音频与视频中的口型动作对齐。KeySync 基于两阶段框架实现,首先生成关键帧捕捉音频的关键唇部动作,基于插值生成平滑的过渡帧。KeySync 引入新的掩码策略,有效减少输入视频的表情泄露,用视频分割模型自动处理遮挡问题。KeySync 在视觉质量、时间连贯性和唇部同步准确性方面均优于现有方法,适用于自动配音等实际应用。


KeySync 是帝国理工学院和弗罗茨瓦夫大学推出的用在高分辨率口型同步框架,支持将输入音频与视频中的口型动作对齐。KeySync 基于两阶段框架实现,首先生成关键帧捕捉音频的关键唇部动作,基于插值生成平滑的过渡帧。KeySync 引入新的掩码策略,有效减少输入视频的表情泄露,用视频分割模型自动处理遮挡问题。KeySync 在视觉质量、时间连贯性和唇部同步准确性方面均优于现有方法,适用于自动配音等实际应用。
全部评论
留言在赶来的路上...
发表评论