Video Alchemist是Snap公司等推出的新型模型,具备多主体、开放集合个性化能力,能根据文本提示和参考图像生成视频,无需在测试时进行优化。模型基于Diffusion Transformer模块,通过双重交叉注意力层将参考图像嵌入和主体级文本提示融入视频生成过程。Video Alchemist还引入了自动数据构建管道和多种数据增强技术,以增强模型对主体身份的关注,避免“复制粘贴效应”。为评估其性能,还提出了MSRVTT-Personalization新的视频个性化基准。

Video Alchemist – AI视频生成模型,具备多主体开放集合个性化能力  第1张
(图片来源网络,侵删)
Video Alchemist – AI视频生成模型,具备多主体开放集合个性化能力  第2张
(图片来源网络,侵删)