ParGo是字节团队与中山大学合作提出的创新的多模态大语言模型连接器,提升视觉和语言模态在多模态大语言模型(MLLMs)中的对齐效果。通过结合局部token和全局token,使用精心设计的注意力掩码分别提取局部和全局信息,在控制token数量的同时增强了局部区域之间的关系建模,考虑图像的细节与全局视角,克服了传统方法中忽视细节的问题。

ParGo – 字节与中山大学联合推出的多模态大模型连接器  第1张
(图片来源网络,侵删)
ParGo – 字节与中山大学联合推出的多模态大模型连接器  第2张
(图片来源网络,侵删)