Valley是字节跳动推出的多模态大模型,用于处理涉及文本、图像和视频数据的多样化任务。Valley在内部电子商务和短视频基准测试中取得了最佳成绩,并在OpenCompass测试中展现出色性能,尤其是在小于10B参数规模的模型中排名第二。Valley-Eagle版本基于引入VisionEncoder增强模型在极端场景下的性能,能灵活调整令牌数量,并与原始视觉令牌并行处理。

Valley – 字节跳动推出的多模态大模型  第1张
(图片来源网络,侵删)
Valley – 字节跳动推出的多模态大模型  第2张
(图片来源网络,侵删)