SANA是由NVIDIA、麻省理工学院和清华大学共同推出的文本到图像生成框架,能高效地生成高达4096×4096分辨率的高清晰度图像。SANA基于深度压缩自编码器、线性扩散变换器(Linear DiT)、仅解码器的小型语言模型作为文本编码器,和高效的训练和采样策略,实现快速生成具有强文本图像对齐的高分辨率图像。SANA在模型大小和吞吐量上具有显著优势,能在笔记本电脑GPU上快速部署,不到1秒即可生成1024×1024分辨率的图像,大大降低内容创作的成本,让高效率的AI图像生成技术更加易于获取和使用。

Sana – 英伟达、麻省和清华联合推出的文本到图像生成框架  第1张
(图片来源网络,侵删)
Sana – 英伟达、麻省和清华联合推出的文本到图像生成框架  第2张
(图片来源网络,侵删)