STIV(Scalable Text and Image Conditioned Video Generation)是苹果公司推出的大模型。STIV拥有8.7亿参数,能处理文本到视频(T2V)和文本图像到视频(TI2V)任务,基于联合图像-文本分类器自由引导(JIT-CFG)提升视频生成质量。STIV模型基于PixArt-Alpha架构,融合时空注意力机制、旋转位置编码(RoPE)和流匹配训练目标,增强视频生成的稳定性和效率。STIV支持多种下游应用,如视频预测、帧插值和长视频生成等。

STIV – 苹果公司推出的视频生成大模型  第1张
(图片来源网络,侵删)
STIV – 苹果公司推出的视频生成大模型  第2张
(图片来源网络,侵删)