GigaTok 是用于自回归的视觉分词器,参数量达 30 亿。通过语义正则化技术,将分词器特征与预训练视觉编码器(如 DINOv2)的语义特征对齐,有效约束潜在空间复杂度,解决了视觉分词器在扩展时重建质量与生成质量之间的矛盾。GigaTok 采用了一维分词器架构以提高可扩展性,优先扩展解码器以高效分配计算资源,引入熵损失来稳定大规模模型的训练。

(图片来源网络,侵删)

(图片来源网络,侵删)
GigaTok 是用于自回归的视觉分词器,参数量达 30 亿。通过语义正则化技术,将分词器特征与预训练视觉编码器(如 DINOv2)的语义特征对齐,有效约束潜在空间复杂度,解决了视觉分词器在扩展时重建质量与生成质量之间的矛盾。GigaTok 采用了一维分词器架构以提高可扩展性,优先扩展解码器以高效分配计算资源,引入熵损失来稳定大规模模型的训练。
全部评论
留言在赶来的路上...
发表评论