GigaTok 是用于自回归的视觉分词器,参数量达 30 亿。通过语义正则化技术,将分词器特征与预训练视觉编码器(如 DINOv2)的语义特征对齐,有效约束潜在空间复杂度,解决了视觉分词器在扩展时重建质量与生成质量之间的矛盾。GigaTok 采用了一维分词器架构以提高可扩展性,优先扩展解码器以高效分配计算资源,引入熵损失来稳定大规模模型的训练。

GigaTok – 港大联合字节推出用于自回归图像生成的视觉分词器  第1张
(图片来源网络,侵删)
GigaTok – 港大联合字节推出用于自回归图像生成的视觉分词器  第2张
(图片来源网络,侵删)