CogVideoX是智谱AI最新推出的开源模型,与智谱AI的商业产品“  ”同源。CogVideoX支持英文提示词,能生成6秒长、每秒8帧、分辨率为720*480的视频。模型推理需7.8-26GB显存,目前不支持量化推理和多卡推理。项目还包括3D Causal VAE组件用于视频重建,以及丰富的示例和工具,包括CLI/WEB Demo、在线体验、API接口示例和微调指南。

CogVideoX-2B 与 CogVideoX-5B参数对比

为了评估文本到视频生成的质量,我们使用了VBench中的多个指标,如人类动作、场景、动态程度等。我们还使用了两个额外的视频评估工具:Devil 中的 Dynamic Quality 和 Chrono-Magic 中的 GPT4o-MT Score,这些工具专注于视频的动态特性。如下表所示。

CogVideoX – 智谱AI推出的开源AI视频生成模型  第1张
(图片来源网络,侵删)
CogVideoX – 智谱AI推出的开源AI视频生成模型  第2张
(图片来源网络,侵删)