OpenAI 最近推出了音频 API,其中包括基于其 TTS(文本到语音)技术的文本到语音功能 – speech。该功能提供六种内置语音,分别为 AlloyEchoFableOnyxNovaShimmer

如何使用OpenAI将文本转换为语音  第1张

Now it’s time to create your first text-to-speech. Refer to the code below, and replace YOUR_API_KEY_HERE with your actual API key.

现在是创建第一个文本到语音的时候了。请参考下面的代码,并将此处的 YOUR_API_KEY_HERE 替换为您的实际 API 密钥。

示例:

复制整段代码,粘贴到终端(Windows 用户可以使用 Command Prompt 或 PowerShell),然后按 Enter。

就是这样!此操作将创建一个名为 example.mp3 的音频文件,文件名为 “hello world”。

现在,您已经熟悉了使用 OpenAI 音频 API 将文本转换为逼真的口语音频,让我们深入了解一下您可以进行的其他调整,这些调整将影响 TTS 输出的质量和风格。

基本上,您可以修改以下内容:

默认模型为 tts-1 ,响应速度快,但质量稍差。您可以切换到 tts-1-hd 型号,以获得更高清晰度的音频输出。

任何用双引号括起来的文本都将转换成语音。示例:

目前有六种不同的声音可供选择: alloyechofableonyxnova, 和 shimmer。示例:

默认情况下,输出为 .mp3 格式。不过,您可以更改文件名或选择其他支持的音频格式。目前支持的格式包括

示例:

在哪里可以找到创建的音频文件?

输出文件位于执行 cURL 脚本的同一文件夹或路径中。要查找终端(Windows 用户:PowerShell 或 Command Prompt)的当前目录,请使用以下命令:

能否创建和使用我的语音的自定义副本?

OpenAI 目前不支持此功能。

其他语音选项听起来如何?

您可以使用不同的语音参数生成音频,听一听其他语音的声音,也可以访问聆听样本。

它支持其他语言吗?

是的,它支持多种语言。我已经用日语、中文(普通话)、越南语和西班牙语进行了测试,它们听起来都很合理。