Phantom是字节跳动智能创作团队推出的用在主体一致(Subject-to-Video, S2V)的框架。基于跨模态对齐技术,结合文本和图像提示,从参考图像中提取主体元素并生成与文本描述一致的视频内容。Phantom基于现有的(T2V)和图像到视频(I2V)架构,重新设计了联合文本-图像注入模型,基于文本-图像-视频三元组数据学习跨模态对齐。Phantom框架支持单主体和多主体参考,特别在人类生成任务中强调主体一致性,覆盖现有的身份保留视频生成任务,提供增强优势。

Phantom – 字节跳动推出的主体一致视频生成框架  第1张
(图片来源网络,侵删)
Phantom – 字节跳动推出的主体一致视频生成框架  第2张
(图片来源网络,侵删)