EDTalk – 上海交大联合网易推出高效解耦的情感说话头像合成模型

baidu09_com 2025-08-28 37 0

EDTalk是上海交通大学联合网易研发的音频驱动唇部同步模型，能实现对嘴型、头部姿态和情感表情的独立操控。只需上传一张图片、一段音频和参考视频，就能驱动图片中的人物说话，支持自定义情感，如高兴、愤怒、悲伤等。EDTalk通过三个轻量级模块将面部动态分解成代表口型、姿态和表情的三个独立潜在空间，每个空间由一组可学习的基向量表征，其线性组合定义了特定的动作。这种高效的解耦训练机制提升了训练效率，降低了资源消耗，即使是初学者也能快速上手并探索创新应用。