Hallo2是复旦大学、百度公司和南京大学共同推出的音频驱动视频生成模型。能将单张参考图片和持续几分钟的音频输入结合起来,基于可选的文本提示调节肖像表情,生成与音频同步的高分辨率4K视频。Hallo2基于先进的数据增强技术,如补丁下降和高斯噪声,增强视频的长期视觉一致性和时间连贯性。Hallo2实现潜在代码的矢量量化和时间对齐技术,生成4K分辨率的视频,引入语义文本标签作为条件输入,提高动画的可控性和多样性。Hallo2在多个公开数据集上进行广泛的实验,展示在生成长时间、高分辨率、丰富且可控内容方面的能力。

(图片来源网络,侵删)

(图片来源网络,侵删)
全部评论
留言在赶来的路上...
发表评论