CineMaster是快手推出的具备3D感知能力的文本到框架。类似于视频版的ControlNet,支持用户通过多种控制信号精确操控视频中物体的位置和相机运动。可以使用文本提示生成视频,能结合深度图、相机轨迹和物体标签等信号进行细致调整。快手提供了一套从大规模视频中提取3D边界框和相机轨迹的流程,为CineMaster的训练和应用提供了强大的数据支持。

CineMaster – 快手推出的文本到视频生成框架,具备3D感知能力  第1张
(图片来源网络,侵删)
CineMaster – 快手推出的文本到视频生成框架,具备3D感知能力  第2张
(图片来源网络,侵删)