Wan2.2-S2V 是开源的多模态模型,仅需一张静态图片和一段音频,能生成电影级,视频时长可达分钟级,支持多种图片类型和画幅。用户通过输入文本提示,可对视频画面进行控制,让画面更丰富。模型融合多种创新技术,实现复杂场景的音频驱动视频生成,支持长视频生成及多分辨率训练与推理。模型在数字人直播、影视制作、AI教育等领域有广泛应用。

Wan2.2-baidu09S2V – 阿里通义开源的多模态视频生成模型  第1张
(图片来源网络,侵删)
Wan2.2-baidu09S2V – 阿里通义开源的多模态视频生成模型  第2张
(图片来源网络,侵删)