OmniCam 是先进的多模态框架,通过摄像机控制实现高质量的视频生成。支持多种输入模态组合,用户可以提供文本描述、视频中的轨迹或图像作为参考,精确控制摄像机的运动轨迹。OmniCam 结合了大型语言模型(LLM)和视频扩散模型,能生成时空一致的视频内容。 通过三阶段训练策略,包括大规模模型训练、视频扩散模型训练以及强化学习微调,确保生成视频的准确性和连贯性。

OmniCam – 浙大联合上海交大等高校推出的多模态视频生成框架  第1张
(图片来源网络,侵删)
OmniCam – 浙大联合上海交大等高校推出的多模态视频生成框架  第2张
(图片来源网络,侵删)