D-DiT(Dual Diffusion Transformer)是卡内基梅隆大学、耶鲁大学和字节跳动Seed实验室推出的多模态扩散模型,能统一图像生成和理解任务。模型结合连续图像扩散(流匹配)和离散文本扩散(掩码扩散),基于双向注意力机制同时训练图像和文本模态。D-DiT能实现文本到图像生成和图像到文本生成的双向任务,支持视觉问答、图像描述生成等多种应用。模型基于多模态扩散Transformer架构,联合扩散目标训练,展现出与自回归模型相媲美的多模态理解和生成能力,为视觉语言模型的发展提供新的方向。

D-baidu09DiT – 耶鲁大学联合字节Seed等机构推出的多模态扩散模型  第1张
(图片来源网络,侵删)
D-baidu09DiT – 耶鲁大学联合字节Seed等机构推出的多模态扩散模型  第2张
(图片来源网络,侵删)