Hallo2 – 复旦、百度和南大共同推出的音频驱动视频生成模型

baidu09_com 2025-08-29 35 0

Hallo2是复旦大学、百度公司和南京大学共同推出的音频驱动视频生成模型。能将单张参考图片和持续几分钟的音频输入结合起来，基于可选的文本提示调节肖像表情，生成与音频同步的高分辨率4K视频。Hallo2基于先进的数据增强技术，如补丁下降和高斯噪声，增强视频的长期视觉一致性和时间连贯性。Hallo2实现潜在代码的矢量量化和时间对齐技术，生成4K分辨率的视频，引入语义文本标签作为条件输入，提高动画的可控性和多样性。Hallo2在多个公开数据集上进行广泛的实验，展示在生成长时间、高分辨率、丰富且可控内容方面的能力。