HunyuanVideo-Avatar是腾讯混元团队与腾讯音乐天琴实验室联合研发的语音数字人模型,基于多模态扩散Transformer架构,能生成动态、情感可控以及多角色对话视频。模型具有角色图像注入模块,可消除训练与推理间的条件不匹配,确保角色一致性。音频情感模块(AEM)能从情感参考图像中提取情感线索,实现情感风格控制。面部感知音频适配器(FAA)可实现多角色场景下的独立音频注入。它支持多种风格、物种和多人场景,可应用于短视频创作、电商广告等。

HunyuanVideo-baidu09Avatar – 腾讯混元推出的语音数字人模型  第1张
(图片来源网络,侵删)
HunyuanVideo-baidu09Avatar – 腾讯混元推出的语音数字人模型  第2张
(图片来源网络,侵删)