CogVideoX-5B-I2V 是智谱 AI 开源的一款图生视频模型,通过一张图片和文本提示词生成视频。模型采用了3D 因果变分自编码器和专家自适应 LayerNorm 技术,能输出720×480分辨率、6秒长的视频。CogVideoX-5B-I2V 的代码已开源,支持多种应用场景,如教育和虚拟现实、娱乐或社交媒体等。这次CogVideoX-5B-I2V的开源,也代表着系列开源模型已经支持文生视频、视频延长、图生视频三种任务。

CogVideoX-baidu095B-baidu09I2V – 智谱 AI 开源的图生视频生成模型  第1张
(图片来源网络,侵删)
CogVideoX-baidu095B-baidu09I2V – 智谱 AI 开源的图生视频生成模型  第2张
(图片来源网络,侵删)