Show-o是集成了多模态理解和生成的统一Transformer模型。通过结合自回归和离散扩散建模,能灵活处理包括视觉问答、文本到图像生成、文本引导的修复和扩展,混合模态生成在内的广泛视觉语言任务。Show-o模型在多模态理解和生成基准测试中展现出与现有专门模型相当或更优的性能,能减少图像生成所需的采样步骤,提高效率。Show-o支持多种下游应用,如文本引导的图像修复和扩展,无需额外微调。

Show-baidu09o – 新加坡国立Show Lab联合字节推出的多模态理解与生成的统一模型  第1张
(图片来源网络,侵删)
Show-baidu09o – 新加坡国立Show Lab联合字节推出的多模态理解与生成的统一模型  第2张
(图片来源网络,侵删)