LatentLM – 微软联合清华推出的多模态生成模型

baidu09_com 2025-08-29 39 0

LatentLM是微软研究院和清华大学共同推出的多模态生成模型，能统一处理离散数据（如文本）和连续数据（如图像、音频）。模型用变分自编码器（VAE）将连续数据编码为潜在向量，引入下一个词扩散技术自回归生成向量。LatentLM基于因果Transformer架构实现不同模态间信息共享，提高模型在多模态任务中的性能和可扩展性。LatentLM推出σ-VAE解决方差崩溃问题，增强自回归建模的鲁棒性，在图像生成、多模态大型语言模型和文本到语音合成等多个领域展现出卓越性能。