LanDiff是用于高质量的(T2V)生成的创新混合框架,结合了自回归语言模型(LLM)和扩散模型(Diffusion Model)的优势,通过粗到细的生成方式,有效克服了单一方法在语义理解和视觉质量上的局限性。在VBench T2V基准测试中取得了85.43的高分,超越了包括13B的Hunyuan Video在内的多个开源和商业模型。

LanDiff – 浙大联合月之暗面推出的文本到视频生成混合框架  第1张
(图片来源网络,侵删)
LanDiff – 浙大联合月之暗面推出的文本到视频生成混合框架  第2张
(图片来源网络,侵删)