D-DiT(Dual Diffusion Transformer)是卡内基梅隆大学、耶鲁大学和字节跳动Seed实验室推出的多模态扩散模型,能统一图像生成和理解任务。模型结合连续图像扩散(流匹配)和离散文本扩散(掩码扩散),基于双向注意力机制同时训练图像和文本模态。D-DiT能实现文本到图像生成和图像到文本生成的双向任务,支持视觉问答、图像描述生成等多种应用。模型基于多模态扩散Transformer架构,联合扩散目标训练,展现出与自回归模型相媲美的多模态理解和生成能力,为视觉语言模型的发展提供新的方向。


全部评论
留言在赶来的路上...
发表评论