HART(Hybrid Autoregressive Transformer)是麻省理工学院研究团队推出的自回归视觉生成模型。能直接生成1024×1024像素的高分辨率图像,质量媲美扩散模型。HART基于混合Tokenizer技术,将自动编码器的连续潜在表示分解为离散token和连续token,其中离散token负责捕捉图像的主要结构,连续token专注于细节。HART的轻量级残差扩散模块仅用3700万参数,大幅提升计算效率。在MJHQ-30K数据集上,HART将重构FID从2.11降至0.30,生成FID从7.85降至5.38,提升了31%,在吞吐量上比现有扩散模型提高4.5-7.7倍,MAC降低6.9-13.4倍。

HART – 麻省理工学院推出的自回归视觉生成模型  第1张
(图片来源网络,侵删)
HART – 麻省理工学院推出的自回归视觉生成模型  第2张
(图片来源网络,侵删)