使用语音 ASR 进行机器学习

Question

有很多关于将语音转换为文本的自动语音识别的研究。这些工具正在使用深度学习来做到这一点。

我发现它的工作方式是基于英语的。如果单词 "Phonics" 的音频，它们要么是 Foniks，但最接近的英文单词是 Phonics。

Google API 可以为我们提供 ASR，为我们提供最终结果。是否有任何工具或开源软件可以为我们提供自然拼读音？像这样的“ˈfəʊnɪks”而不是 "Phonics"

谢谢。

Answer 1

有多种 ASR 开源工具。 Kaldi、CMU Sphinx 和 HTK 是最受欢迎且有据可查的。如果您想将 DNN 用于 ASR，Kaldi 可能是最好的选择。

但是，所提供的识别结果的形式取决于您的词汇量。如果你想用 ˈfəʊnɪks 代替 Phonics，你必须在词汇表中定义它。例如：

!SIL sil
<UNK> spn
eight ey t
five f ay v
...
f_ey_ow_n_i_k_s f ey ow n i k s
....

不可能使用 Unicode 符号来表示单词（据我所知），所以我用 X-SAMPA 符号替换了它们。

关注this tutorial以获得深入的解释。

Machine Learning with phonics ASR