Mogao是字节跳动Seed团队推出的交错多模态生成全基础模型。在架构上采用了双视觉编码器,结合变分自编码器(VAE)和视觉变换器(ViT),能更好地进行视觉理解并改善图像生成的上下文对齐。Mogao引入了交错旋转位置嵌入(IL-RoPE),用于捕捉图像的二维空间位置信息和多模态数据的时间位置关系,通过多模态无分类器引导技术进一步提升生成质量和一致性。

Mogao – 字节跳动Seed团队推出的多模态理解与生成统一架构  第1张
(图片来源网络,侵删)
Mogao – 字节跳动Seed团队推出的多模态理解与生成统一架构  第2张
(图片来源网络,侵删)