MagicTryOn是浙江大学计算机科学与技术学院、vivo移动通信等机构推出的基于视频扩散Transformer的视频框架。框架替换传统的U-Net架构为更具表现力的扩散Transformer(DiT),结合全自注意力机制,实现视频的时空一致性建模。框架用粗到细的服装保持策略,基于在嵌入阶段整合服装标记以及在去噪阶段引入语义、纹理和轮廓线等多条件,有效保留服装细节。MagicTryOn在图像和视频试穿数据集上均展现出超越现有最先进方法的性能,在评估指标、视觉质量和在野外场景的泛化能力上都表现出色。

MagicTryOn – 浙大联合vivo等机构推出的视频虚拟试穿框架  第1张
(图片来源网络,侵删)
MagicTryOn – 浙大联合vivo等机构推出的视频虚拟试穿框架  第2张
(图片来源网络,侵删)