Kandinsky-3是基于潜在扩散模型的文本到图像(T2I)生成框架,支持高质量和逼真度在图像合成。Kandinsky-3能适应多种图像生成任务,包括文本引导的修复/扩展、图像融合、文本-图像融合及视频生成等。研究者们推出一个简化版本的T2I模型版本,该版本在保持图像质量的同时,将推理速度提高3倍,仅需4步逆向过程即可完成。Kandinsky-3的显著特点在于架构的简洁性和高效性,能适应多种图像生成任务。

Kandinsky-baidu093 – 开源的文本到图像生成框架,适应多种图像生成任务  第1张
(图片来源网络,侵删)
Kandinsky-baidu093 – 开源的文本到图像生成框架,适应多种图像生成任务  第2张
(图片来源网络,侵删)