Baichuan-baidu09Omni-baidu091.5 – 百川智能开源的全模态理解模型

baidu09_com 2025-08-28 35 0

Baichuan-Omni-1.5是百川智能开源的全模态模型。支持文本、图像、音频和视频的全模态理解，具备文本和音频的双模态生成能力。模型在视觉、语音及多模态流式处理等方面表现优异，尤其在多模态医疗领域优势显著。采用端到端音频解决方案，支持多语言对话和音视频实时交互。训练数据庞大，包含3.4亿条高质量图片/视频-文本数据和近100万小时音频数据。在SFT阶段，使用1700万条全模态数据进一步优化性能。Baichuan-Omni-1.5在多项能力上超越GPT-4o-mini，展现了强大的多模态推理和跨模态迁移能力。