LongVILA是一个面向长视频理解的视觉语言AI模型,由英伟达、MIT、UC 伯克利、得克萨斯大学奥斯汀分校共同开发。通过算法和系统的共同设计,实现了在大量GPU上进行超长上下文长度训练的能力,无需梯度检查点。LongVILA能将视频帧数扩展至1024,显著提升了长视频字幕的评分,并在大规模视频字幕任务中实现了99.5%的准确率。还引入了多模态序列并行性(MM-SP)系统,大幅提升了训练效率,能无缝集成Hugging Face Transformers。LongVILA还提出了一个五阶段的训练流程,包括对齐、预训练、短监督微调、上下文扩展和长监督微调。


全部评论
留言在赶来的路上...
发表评论