Long-baidu09VITA – 腾讯优图联合南大、厦大开源的多模态模型

baidu09_com 2025-08-29 35 0

Long-VITA 是腾讯优图实验室、南京大学、厦门大学开源的多模态模型，能处理超过100万tokens的长文本输入，在短文本任务中表现出色。Long-VITA基于分阶段训练，逐步扩展视觉和语言的上下文理解能力，支持图像、视频和文本的多模态输入。Long-VITA 用动态分块编码器处理高分辨率图像，基于上下文并行分布式推理实现对无限长度输入的支持。Long-VITA 用开源数据集进行训练，包括漫画摘要、电影剧情等长文本数据，在多个多模态基准测试中达到新的SOTA性能。