首页 / AI工具 / LatentSync – 字节联合北交大开源的端到端唇形同步框架

AI工具

LatentSync – 字节联合北交大开源的端到端唇形同步框架

baidu09_com 2025-08-29 39 0

LatentSync是字节跳动、北京交通大学联合推出的端到端唇形同步框架，基于音频条件的潜在扩散模型，无需任何中间的3D表示或2D特征点。LatentSync用Stable Diffusion的强大生成能力，捕捉复杂的视听关联，生成动态逼真的说话视频。为解决扩散模型在不同帧间扩散过程不一致导致的时间一致性问题，推出Temporal REPresentation Alignment (TREPA)方法，用大规模自监督视频模型提取时间表示，增强生成帧与真实帧的时间一致性，同时保持唇同步准确性。LatentSync基于综合实验研究，解决了SyncNet的收敛问题，提高唇形同步的准确性。

LatentSync – 字节联合北交大开源的端到端唇形同步框架第1张

（图片来源网络，侵删）

LatentSync – 字节联合北交大开源的端到端唇形同步框架第2张

（图片来源网络，侵删）

字节context union字节 synchronized字节码字节联动字节 client infra 联合体字节对齐

本文由 @baidu09_com 发布在拜读未来科技摆渡人生，如有疑问，请联系我们。
文章链接：https://www.baidu09.com/news/14069.html

baidu09_com管理员

上一篇

鲲鹏秘籍显优势，原生开发闯江湖

下一篇

机油A3B4和A5B5的区别，机油A3B4和A5B5兼容吗

全部评论

留言在路上...

留言在赶来的路上...

发表评论取消回复

关灯返回顶部