JoyGen是京东科技和香港大学推出的,音频驱动的3D说话人脸框架,专注于实现精确的唇部与音频同步及高质量的视觉效果。JoyGen结合音频特征和面部深度图,驱动唇部运动的生成,用单步UNet架构进行高效的视频编辑。JoyGen在训练过程中用包含130小时中文视频的高质量数据集,在开源的HDTF数据集上验证其优越性能。实验结果表明,JoyGen在唇部与音频同步和视觉质量方面均达到行业领先水平,为说话人脸视频编辑领域提供了新的技术解决方案。


JoyGen是京东科技和香港大学推出的,音频驱动的3D说话人脸框架,专注于实现精确的唇部与音频同步及高质量的视觉效果。JoyGen结合音频特征和面部深度图,驱动唇部运动的生成,用单步UNet架构进行高效的视频编辑。JoyGen在训练过程中用包含130小时中文视频的高质量数据集,在开源的HDTF数据集上验证其优越性能。实验结果表明,JoyGen在唇部与音频同步和视觉质量方面均达到行业领先水平,为说话人脸视频编辑领域提供了新的技术解决方案。
全部评论
留言在赶来的路上...
发表评论