通过Test-Time训练生成一分钟视频  第1张Source: 

是的,而且令人印象深刻。与 Mamba 2、Gated DeltaNet 和滑动窗口注意力等领先基准相比,TTT-MLP 模型在 100 个视频的人工评估中平均超出它们 34 个 Elo 点。

评估考虑了以下因素

TTT-MLP 在动作和场景一致性方面表现尤为突出,它能在动态动作中保持逻辑连续性–这是其他模型难以做到的。

尽管结果令人满意,但仍存在人工痕迹。光照可能会不一致地变化,或者运动可能看起来很漂浮(例如奶酪不自然地悬停)。这些问题可能与基础模型 CogVideo-X 的局限性有关。另一个瓶颈是效率。虽然 TTT-MLP 比完全自注意模型快得多(速度提高了 2.5 倍),但它仍然比 Gated DeltaNet 等更精简的 RNN 方法要慢。尽管如此,TTT 只需要微调,而不需要从头开始训练,这使得它在许多使用案例中更加实用。

研究小组指出了几个扩展机会:

下表解释了该模型与其他流行的视频生成模型之间的区别:

推荐阅读

Test-Time Training 为解决长语境视频生成问题提供了一个令人着迷的新视角。通过让模型在推理过程中学习和适应,它弥补了讲故事过程中的一个重要缺陷,在这个领域中,连续性、情感和节奏与视觉保真度同样重要。

无论您是生成式人工智能的研究人员、创意技术专家,还是对人工智能生成媒体的下一步发展充满好奇的产品领导者,这项工作都是指向未来动态、连贯的文本视频合成的路标。