Video Alchemist是Snap公司等推出的新型模型,具备多主体、开放集合个性化能力,能根据文本提示和参考图像生成视频,无需在测试时进行优化。模型基于Diffusion Transformer模块,通过双重交叉注意力层将参考图像嵌入和主体级文本提示融入视频生成过程。Video Alchemist还引入了自动数据构建管道和多种数据增强技术,以增强模型对主体身份的关注,避免“复制粘贴效应”。为评估其性能,还提出了MSRVTT-Personalization新的视频个性化基准。


Video Alchemist是Snap公司等推出的新型模型,具备多主体、开放集合个性化能力,能根据文本提示和参考图像生成视频,无需在测试时进行优化。模型基于Diffusion Transformer模块,通过双重交叉注意力层将参考图像嵌入和主体级文本提示融入视频生成过程。Video Alchemist还引入了自动数据构建管道和多种数据增强技术,以增强模型对主体身份的关注,避免“复制粘贴效应”。为评估其性能,还提出了MSRVTT-Personalization新的视频个性化基准。
全部评论
留言在赶来的路上...
发表评论