LatentLM是微软研究院和清华大学共同推出的多模态生成模型,能统一处理离散数据(如文本)和连续数据(如图像、音频)。模型用变分自编码器(VAE)将连续数据编码为潜在向量,引入下一个词扩散技术自回归生成向量。LatentLM基于因果Transformer架构实现不同模态间信息共享,提高模型在多模态任务中的性能和可扩展性。LatentLM推出σ-VAE解决方差崩溃问题,增强自回归建模的鲁棒性,在图像生成、多模态大型语言模型和文本到语音合成等多个领域展现出卓越性能。

(图片来源网络,侵删)

(图片来源网络,侵删)
全部评论
留言在赶来的路上...
发表评论