Baichuan-Omni-1.5是百川智能开源的全模态模型。支持文本、图像、音频和视频的全模态理解,具备文本和音频的双模态生成能力。模型在视觉、语音及多模态流式处理等方面表现优异,尤其在多模态医疗领域优势显著。采用端到端音频解决方案,支持多语言对话和音视频实时交互。训练数据庞大,包含3.4亿条高质量图片/视频-文本数据和近100万小时音频数据。在SFT阶段,使用1700万条全模态数据进一步优化性能。Baichuan-Omni-1.5在多项能力上超越GPT-4o-mini,展现了强大的多模态推理和跨模态迁移能力。

Baichuan-baidu09Omni-baidu091.5 – 百川智能开源的全模态理解模型  第1张
(图片来源网络,侵删)
Baichuan-baidu09Omni-baidu091.5 – 百川智能开源的全模态理解模型  第2张
(图片来源网络,侵删)