Lumina-baidu09Video – 上海 AI Lab 和港中文推出的视频生成框架

baidu09_com 2025-08-29 33 0

Lumina-Video是上海 AI Lab 和香港中文大学推出的框架，基于Next-DiT架构，针对视频生成中的时空复杂性进行优化。基于多尺度Next-DiT架构，用不同大小的patchify层提升效率和灵活性，基于运动分数作为条件输入，直接控制生成视频的动态程度。Lumina-Video用渐进式训练、图像-视频联合训练和多源训练策略，进一步提高训练效率和生成质量。Lumina-Video扩展了Lumina-V2A模型，为生成的视频添加同步声音，让视频更具现实感。