Oryx是由清华大学、腾讯和南洋理工大学联合推出的多模态大型语言模型(MLLM),基于两项核心创新来处理视觉数据,预训练的OryxViT模型和动态压缩模块。OryxViT将任意分辨率的图像编码为适合LLM的视觉表示,动态压缩模块根据需求在1到16倍之间压缩视觉标记。使Oryx能灵活地处理不同分辨率和时长的视觉输入,无论是高清图像还是超长视频。Oryx在多个视觉-语言基准测试中展现卓越的性能,特别是在空间和时间理解方面。

Oryx – 腾讯联合清华和南洋理工大学推出的多模态大语言模型  第1张
(图片来源网络,侵删)
Oryx – 腾讯联合清华和南洋理工大学推出的多模态大语言模型  第2张
(图片来源网络,侵删)