Fish Speech 1.5 – Fish Audio 推出的语音合成模型，支持13种语言

baidu09_com 2025-08-29 43 0

Fish Speech 1.5 是Fish Audio 推出的文本到语音（TTS）模型，基于深度学习技术如Transformer、VITS、VQVAE和GPT等。Fish Speech 1.5支持英语、日语、韩语、中文等13种语言，具备零样本和少样本语音合成能力，只需10到30秒的声音样本可模仿高质量语音，语音克隆功能延迟时间不到150毫秒。模型泛化能力强，无需依赖音素，能处理任何语言脚本。即将推出的实时无缝对话功能，用户能随时随地进行交互式聊天。Fish Speech 1.5开源预训练模型，支持本地部署，适用于Linux、Windows和macOS系统。