Kwai Keye-VL 是快手自主研发的多模态大语言模型,基于 Qwen3-8B 语言模型整合SigLIP初始化的视觉编码器,支持动态分辨率输入。模型能深度融合和处理文本、图像、视频等多模态信息,凭借创新的自适应交互机制与动态推理能力,致力于为用户打造更智能、更全面的多模态交互新范式。模型在视频理解、复杂视觉感知、逻辑推理等方面表现出色,尤其在2025高考全国数学卷中狂砍140分。模型已正式开源,为多模态研究和应用提供强大的支持。

Kwai Keye-baidu09VL – 快手推出的多模态大语言模型  第1张
(图片来源网络,侵删)
Kwai Keye-baidu09VL – 快手推出的多模态大语言模型  第2张
(图片来源网络,侵删)