Fluid – 谷歌联合MIT推出文本到图像的自回归生成模型

baidu09_com 2025-08-29 42 0

Fluid是由Google DeepMind和MIT共同推出的文本到图像的自回归生成模型，基于连续标记和随机生成顺序的方法，在视觉质量和评估性能上取得突破性进展。模型在扩大模型规模时，能有效提升图像生成的视觉质量，解决传统自回归模型的局限性。在10.5亿参数规模下，Fluid在MS-COCO数据集上实现6.16的零样本FID得分，在GenEval基准测试中获得0.69的得分，刷新文生图领域的纪录。Fluid的创新之处在于随机顺序生成机制和连续标记的使用，在生成图像时能更好地捕捉全局结构，特别是在多对象场景中表现出色。