MEMO – 音频驱动的生成肖像说话视频框架，保持身份一致性和表现力

baidu09_com 2025-08-29 32 0

MEMO（Memory-Guided EMOtionaware diffusion）是Skywork AI、南洋理工大学和新加坡国立大学推出的音频驱动肖像动画框架，用在生成具有身份一致性和表现力的说话视频。MEMO围绕两个核心模块构建：记忆引导的时间模块和情感感知音频模块。记忆引导模块通存储更长期的运动信息增强身份一致性和运动平滑性，情感感知模块用多模态注意力机制提升音频与视频的交互，根据音频中的情感来细化面部表情。MEMO在多种图像和音频类型的说话视频中，展现出比现有最先进方法更优秀的整体质量、音频-唇形同步、身份一致性和表情-情感对齐。