Sana – 英伟达、麻省和清华联合推出的文本到图像生成框架

baidu09_com 2025-08-30 36 0

SANA是由NVIDIA、麻省理工学院和清华大学共同推出的文本到图像生成框架，能高效地生成高达4096×4096分辨率的高清晰度图像。SANA基于深度压缩自编码器、线性扩散变换器（Linear DiT）、仅解码器的小型语言模型作为文本编码器，和高效的训练和采样策略，实现快速生成具有强文本图像对齐的高分辨率图像。SANA在模型大小和吞吐量上具有显著优势，能在笔记本电脑GPU上快速部署，不到1秒即可生成1024×1024分辨率的图像，大大降低内容创作的成本，让高效率的AI图像生成技术更加易于获取和使用。