LatentLM是微软研究院和清华大学共同推出的多模态生成模型,能统一处理离散数据(如文本)和连续数据(如图像、音频)。模型用变分自编码器(VAE)将连续数据编码为潜在向量,引入下一个词扩散技术自回归生成向量。LatentLM基于因果Transformer架构实现不同模态间信息共享,提高模型在多模态任务中的性能和可扩展性。LatentLM推出σ-VAE解决方差崩溃问题,增强自回归建模的鲁棒性,在图像生成、多模态大型语言模型和文本到语音合成等多个领域展现出卓越性能。

LatentLM – 微软联合清华推出的多模态生成模型  第1张
(图片来源网络,侵删)
LatentLM – 微软联合清华推出的多模态生成模型  第2张
(图片来源网络,侵删)