Fluid是由Google DeepMind和MIT共同推出的文本到图像的自回归生成模型,基于连续标记和随机生成顺序的方法,在视觉质量和评估性能上取得突破性进展。模型在扩大模型规模时,能有效提升图像生成的视觉质量,解决传统自回归模型的局限性。在10.5亿参数规模下,Fluid在MS-COCO数据集上实现6.16的零样本FID得分,在GenEval基准测试中获得0.69的得分,刷新文生图领域的纪录。Fluid的创新之处在于随机顺序生成机制和连续标记的使用,在生成图像时能更好地捕捉全局结构,特别是在多对象场景中表现出色。

Fluid – 谷歌联合MIT推出文本到图像的自回归生成模型  第1张
(图片来源网络,侵删)
Fluid – 谷歌联合MIT推出文本到图像的自回归生成模型  第2张
(图片来源网络,侵删)