FastVLM – 苹果推出的高效视觉语言模型

baidu09_com 2025-08-29 38 0

FastVLM是苹果推出的高效的视觉语言模型（VLM），能提升高分辨率图像处理的效率和性能。模型引入FastViTHD新型混合视觉编码器，有效减少视觉token数量，显著降低编码时间。FastVLM在保持与现有VLM相似性能的同时，大幅提升处理速度，例如在LLaVA-1.5设置中，相比其他模型，将首次生成token的时间（TTFT）缩短3.2倍。FastVLM在多种VLM基准测试中表现出色，且模型尺寸更小，训练数据需求更少，展现在多模态理解任务中的高效性和实用性。