PoseTalk 是基于文本和音频的姿势控制和运动细化方法的开源项目,用于一次性生成会说话的头部视频。从图像、驱动音频和驱动姿势合成说话人脸视频,为用户提供高效、便捷的头部动画生成方式。PoseTalk 的核心在于基于文本提示和音频线索,在姿势潜在空间中生成运动潜在,实现自然、逼真的头部运动效果。通过 Pose Latent Diffusion (PLD) 模型和级联网络 CoarseNet 与 RefineNet,实现高质量的唇部同步和头部姿势生成,适用于多种应用场景,如虚拟主播、在线教育和社交媒体。


全部评论
留言在赶来的路上...
发表评论