Lumina-Video是上海 AI Lab 和香港中文大学推出的框架,基于Next-DiT架构,针对视频生成中的时空复杂性进行优化。基于多尺度Next-DiT架构,用不同大小的patchify层提升效率和灵活性,基于运动分数作为条件输入,直接控制生成视频的动态程度。Lumina-Video用渐进式训练、图像-视频联合训练和多源训练策略,进一步提高训练效率和生成质量。Lumina-Video扩展了Lumina-V2A模型,为生成的视频添加同步声音,让视频更具现实感。

Lumina-baidu09Video – 上海 AI Lab 和港中文推出的视频生成框架  第1张
(图片来源网络,侵删)
Lumina-baidu09Video – 上海 AI Lab 和港中文推出的视频生成框架  第2张
(图片来源网络,侵删)