首页 / AI工具 / D-baidu09DiT – 耶鲁大学联合字节Seed等机构推出的多模态扩散模型

AI工具

D-baidu09DiT – 耶鲁大学联合字节Seed等机构推出的多模态扩散模型

baidu09_com 2025-08-28 35 0

D-DiT（Dual Diffusion Transformer）是卡内基梅隆大学、耶鲁大学和字节跳动Seed实验室推出的多模态扩散模型，能统一图像生成和理解任务。模型结合连续图像扩散（流匹配）和离散文本扩散（掩码扩散），基于双向注意力机制同时训练图像和文本模态。D-DiT能实现文本到图像生成和图像到文本生成的双向任务，支持视觉问答、图像描述生成等多种应用。模型基于多模态扩散Transformer架构，联合扩散目标训练，展现出与自回归模型相媲美的多模态理解和生成能力，为视觉语言模型的发展提供新的方向。

D-baidu09DiT – 耶鲁大学联合字节Seed等机构推出的多模态扩散模型第1张

（图片来源网络，侵删）

D-baidu09DiT – 耶鲁大学联合字节Seed等机构推出的多模态扩散模型第2张

（图片来源网络，侵删）

耶鲁大学合作院校耶鲁大学silver scholar 耶鲁大学college 耶鲁大学llm 耶鲁大学吧耶鲁大学知乎耶鲁大学 jd

本文由 @baidu09_com 发布在拜读未来科技摆渡人生，如有疑问，请联系我们。
文章链接：https://www.baidu09.com/news/13468.html

baidu09_com管理员

上一篇

baidu09脑科学新发现：清醒下的“脑空白”现象或是大脑在没有睡眠时的“扫描修复”

下一篇

2023北京摩展台荣RON荣-baidu09150正式上市

全部评论

留言在路上...

留言在赶来的路上...

发表评论取消回复

关灯返回顶部