AnyCharV是香港中文大学、清华大学深圳国际研究生院、香港大学联合推出的角色可控框架,能将任意参考角色图像与目标驱动视频相结合,生成高质量的角色视频。AnyCharV基于两阶段训练策略实现精细到粗略的引导:第一阶段用细粒度分割掩码和姿态信息进行自监督合成;第二阶段用自增强训练和粗粒度掩码优化角色细节保留。AnyCharV 在实验中展现出优越的性能,能自然地保留角色的外观细节,支持复杂的人-物交互和背景融合。AnyCharV能与(T2I)和(T2V)模型生成的内容结合,具有很强的泛化能力。

AnyCharV – 港中文联合清华等机构推出的角色可控视频生成框架  第1张
(图片来源网络,侵删)
AnyCharV – 港中文联合清华等机构推出的角色可控视频生成框架  第2张
(图片来源网络,侵删)