SANA是由NVIDIA、麻省理工学院和清华大学共同推出的文本到图像生成框架,能高效地生成高达4096×4096分辨率的高清晰度图像。SANA基于深度压缩自编码器、线性扩散变换器(Linear DiT)、仅解码器的小型语言模型作为文本编码器,和高效的训练和采样策略,实现快速生成具有强文本图像对齐的高分辨率图像。SANA在模型大小和吞吐量上具有显著优势,能在笔记本电脑GPU上快速部署,不到1秒即可生成1024×1024分辨率的图像,大大降低内容创作的成本,让高效率的AI图像生成技术更加易于获取和使用。


全部评论
留言在赶来的路上...
发表评论