使用语音 ASR 进行机器学习
Machine Learning with phonics ASR
有很多关于将语音转换为文本的自动语音识别的研究。这些工具正在使用深度学习来做到这一点。
我发现它的工作方式是基于英语的。如果单词 "Phonics" 的音频,它们要么是 Foniks,但最接近的英文单词是 Phonics。
Google API 可以为我们提供 ASR,为我们提供最终结果。是否有任何工具或开源软件可以为我们提供自然拼读音?像这样的“ˈfəʊnɪks”而不是 "Phonics"
谢谢。
有多种 ASR 开源工具。 Kaldi、CMU Sphinx 和 HTK 是最受欢迎且有据可查的。如果您想将 DNN 用于 ASR,Kaldi 可能是最好的选择。
但是,所提供的识别结果的形式取决于您的词汇量。如果你想用 ˈfəʊnɪks
代替 Phonics
,你必须在词汇表中定义它。例如:
!SIL sil
<UNK> spn
eight ey t
five f ay v
...
f_ey_ow_n_i_k_s f ey ow n i k s
....
不可能使用 Unicode 符号来表示单词(据我所知),所以我用 X-SAMPA 符号替换了它们。
关注this tutorial以获得深入的解释。
有很多关于将语音转换为文本的自动语音识别的研究。这些工具正在使用深度学习来做到这一点。
我发现它的工作方式是基于英语的。如果单词 "Phonics" 的音频,它们要么是 Foniks,但最接近的英文单词是 Phonics。
Google API 可以为我们提供 ASR,为我们提供最终结果。是否有任何工具或开源软件可以为我们提供自然拼读音?像这样的“ˈfəʊnɪks”而不是 "Phonics"
谢谢。
有多种 ASR 开源工具。 Kaldi、CMU Sphinx 和 HTK 是最受欢迎且有据可查的。如果您想将 DNN 用于 ASR,Kaldi 可能是最好的选择。
但是,所提供的识别结果的形式取决于您的词汇量。如果你想用 ˈfəʊnɪks
代替 Phonics
,你必须在词汇表中定义它。例如:
!SIL sil
<UNK> spn
eight ey t
five f ay v
...
f_ey_ow_n_i_k_s f ey ow n i k s
....
不可能使用 Unicode 符号来表示单词(据我所知),所以我用 X-SAMPA 符号替换了它们。
关注this tutorial以获得深入的解释。