ConsisID是北京大学和鹏城实验室等机构推出的文本到视频(Text-to-Video, IPT2V)生成模型,基于频率分解技术保持视频中人物身份的一致性。模型用免调优(tuning-free)的Diffusion Transformer(DiT)架构,结合低频全局特征和高频内在特征,用分层训练策略生成高质量、可编辑且身份一致性强的视频。ConsisID在多个评估维度上超越现有技术,推动了身份一致性视频生成技术的发展。

ConsisID – 北大联合鹏城实验室等机构推出的文本到视频生成模型  第1张
(图片来源网络,侵删)
ConsisID – 北大联合鹏城实验室等机构推出的文本到视频生成模型  第2张
(图片来源网络,侵删)