运行 2019 年使用(DeepVoice | WaveNet | 等)的深度学习 TTS
Running a deep learning TTS in 2019 using (DeepVoice | WaveNet | etc)
我正在尝试将 txt 文件中的一系列句子转换为声音尽可能清晰的 WAV 文件。
根据2019 survey,最近有许多使用深度学习技术的进步。
这是个好消息,因为内置或常用的文本转语音引擎听起来非常机器人化。 (OSX 的 "say" 命令、espeak 等)。
问题是,github 页面或协作笔记本链接的重点是如何训练新模型或设置 docker 实例,似乎没有包含最小
git clone ...
./speak "How are you doing?" -o hayd.wav
你知道如何安装和运行那篇文章中的任何 2019 引擎说一句话吗?
我会更新 if/when 我找到一个有用的。
我不知道列表中的任何其他人,但对于 WaveNet,您可以使用 Google 的 API. Your code sends the text to Google, and they return the audio. There are client libraries available for C#, Go, Java, Node.js, PHP, Python, and Ruby. If you want to do it from another language you could use the REST API. For WaveNet, the first 1 million characters per month are free. After that it is per 1 million characters. See their pricing page。
如果您的项目是一个相对较小的一次性项目,并且您不介意以编程方式进行(问题中不清楚),那么您可以使用他们的 online demo page and use a browser add-on (e.g. Video DownloadHelper or one of many others) to download the results as audio files. Alternatively you could use the API on the command line.
在我看来,WaveNet 的质量非常好,并且是对前几代文本到语音算法的巨大改进。您有时几乎相信这些声音是真实的。
我正在尝试将 txt 文件中的一系列句子转换为声音尽可能清晰的 WAV 文件。
根据2019 survey,最近有许多使用深度学习技术的进步。
这是个好消息,因为内置或常用的文本转语音引擎听起来非常机器人化。 (OSX 的 "say" 命令、espeak 等)。
问题是,github 页面或协作笔记本链接的重点是如何训练新模型或设置 docker 实例,似乎没有包含最小
git clone ...
./speak "How are you doing?" -o hayd.wav
你知道如何安装和运行那篇文章中的任何 2019 引擎说一句话吗?
我会更新 if/when 我找到一个有用的。
我不知道列表中的任何其他人,但对于 WaveNet,您可以使用 Google 的 API. Your code sends the text to Google, and they return the audio. There are client libraries available for C#, Go, Java, Node.js, PHP, Python, and Ruby. If you want to do it from another language you could use the REST API. For WaveNet, the first 1 million characters per month are free. After that it is per 1 million characters. See their pricing page。
如果您的项目是一个相对较小的一次性项目,并且您不介意以编程方式进行(问题中不清楚),那么您可以使用他们的 online demo page and use a browser add-on (e.g. Video DownloadHelper or one of many others) to download the results as audio files. Alternatively you could use the API on the command line.
在我看来,WaveNet 的质量非常好,并且是对前几代文本到语音算法的巨大改进。您有时几乎相信这些声音是真实的。