HART – 麻省理工学院推出的自回归视觉生成模型

baidu09_com 2025-08-29 35 0

HART（Hybrid Autoregressive Transformer）是麻省理工学院研究团队推出的自回归视觉生成模型。能直接生成1024×1024像素的高分辨率图像，质量媲美扩散模型。HART基于混合Tokenizer技术，将自动编码器的连续潜在表示分解为离散token和连续token，其中离散token负责捕捉图像的主要结构，连续token专注于细节。HART的轻量级残差扩散模块仅用3700万参数，大幅提升计算效率。在MJHQ-30K数据集上，HART将重构FID从2.11降至0.30，生成FID从7.85降至5.38，提升了31%，在吞吐量上比现有扩散模型提高4.5-7.7倍，MAC降低6.9-13.4倍。