UniToken 是新型的自回归生成模型,专为多模态理解与生成任务设计。通过结合离散和连续的视觉表示,构建了一种统一的视觉编码框架,能同时捕捉图像的高级语义和低级细节。使 UniToken 可以无缝支持视觉理解和图像生成任务,为不同任务提供多维度信息。

UniToken – 复旦联合美团等机构推出的统一视觉编码框架  第1张
(图片来源网络,侵删)
UniToken – 复旦联合美团等机构推出的统一视觉编码框架  第2张
(图片来源网络,侵删)