HunyuanVideo-baidu09Avatar – 腾讯混元推出的语音数字人模型

baidu09_com 2025-08-29 35 0

HunyuanVideo-Avatar是腾讯混元团队与腾讯音乐天琴实验室联合研发的语音数字人模型，基于多模态扩散Transformer架构，能生成动态、情感可控以及多角色对话视频。模型具有角色图像注入模块，可消除训练与推理间的条件不匹配，确保角色一致性。音频情感模块（AEM）能从情感参考图像中提取情感线索，实现情感风格控制。面部感知音频适配器（FAA）可实现多角色场景下的独立音频注入。它支持多种风格、物种和多人场景，可应用于短视频创作、电商广告等。