HunyuanVideo-Avatar是腾讯混元团队与腾讯音乐天琴实验室联合研发的语音数字人模型,基于多模态扩散Transformer架构,能生成动态、情感可控以及多角色对话视频。模型具有角色图像注入模块,可消除训练与推理间的条件不匹配,确保角色一致性。音频情感模块(AEM)能从情感参考图像中提取情感线索,实现情感风格控制。面部感知音频适配器(FAA)可实现多角色场景下的独立音频注入。它支持多种风格、物种和多人场景,可应用于短视频创作、电商广告等。


HunyuanVideo-Avatar是腾讯混元团队与腾讯音乐天琴实验室联合研发的语音数字人模型,基于多模态扩散Transformer架构,能生成动态、情感可控以及多角色对话视频。模型具有角色图像注入模块,可消除训练与推理间的条件不匹配,确保角色一致性。音频情感模块(AEM)能从情感参考图像中提取情感线索,实现情感风格控制。面部感知音频适配器(FAA)可实现多角色场景下的独立音频注入。它支持多种风格、物种和多人场景,可应用于短视频创作、电商广告等。
全部评论
留言在赶来的路上...
发表评论