LongLLaVA – 香港中文大学推出的多模态上下文混合架构大语言模型

baidu09_com 2025-08-29 36 0

LongLLaVA是的多模态大型语言模型（MLLM），是香港中文大学（深圳）的研究人员推出。基于混合架构，结合Mamba和Transformer模块，提高处理大量图像数据的效率。LongLLaVA能在单个A100 80GB GPU上处理多达1000张图像，同时保持高性能和低内存消耗。模型基于2D池化技术压缩图像token，显著降低计算成本，保留关键的空间关系信息。LongLLaVA在视频理解、高分辨率图像分析和多模态代理等应用场景中展现出卓越的性能，特别是在检索、计数和排序任务中。