Oryx – 腾讯联合清华和南洋理工大学推出的多模态大语言模型

baidu09_com 2025-08-30 30 0

Oryx是由清华大学、腾讯和南洋理工大学联合推出的多模态大型语言模型（MLLM），基于两项核心创新来处理视觉数据，预训练的OryxViT模型和动态压缩模块。OryxViT将任意分辨率的图像编码为适合LLM的视觉表示，动态压缩模块根据需求在1到16倍之间压缩视觉标记。使Oryx能灵活地处理不同分辨率和时长的视觉输入，无论是高清图像还是超长视频。Oryx在多个视觉-语言基准测试中展现卓越的性能，特别是在空间和时间理解方面。