OmniVision是紧凑的多模态模型,拥有968M参数,专为边缘设备优化。OmniVision能处理视觉和文本输入,基于LLaVA架构改进,显著减少图像token数量,降低延迟和计算成本。基于可信数据进行DPO训练,OmniVision提供更可靠的结果,适于视觉问答和图像描述等任务。

OmniVision – 专为边缘设备优化的最小参数多模态模型  第1张
(图片来源网络,侵删)
OmniVision – 专为边缘设备优化的最小参数多模态模型  第2张
(图片来源网络,侵删)