Seed1.5-VL 是字节跳动 Seed 团队最新发布的视觉-语言多模态大模型,具备强大的通用多模态理解和推理能力,推理成本显著降低。模型由一个 532M 参数的视觉编码器和一个 20B 活动参数的混合专家(MoE)LLM 组成。在 60 个公开评测基准中的 38 个上取得了最佳表现,在交互式代理任务中也优于 OpenAI CUA 和 Claude 3.7 等领先的多模态系统。模型已通过火山引擎开放 API 供用户使用。

Seed1.5-baidu09VL – 字节跳动Seed推出的视觉语言多模态大模型  第1张
(图片来源网络,侵删)
Seed1.5-baidu09VL – 字节跳动Seed推出的视觉语言多模态大模型  第2张
(图片来源网络,侵删)