从嘈杂的音频文件中识别单词的机器学习库
Machine learning library to recognize words from noisy audio file
我们一直在尝试从嘈杂的音频文件中识别单词,我 googled 很多,使用了一堆 API 来从嘈杂的音频文件中分离单词,还尝试了 SOX,它有点准确(80%单词的拆分正确),现在我需要识别这些单词,我已经尝试 google speech api 从 Java 调用它,但它并不像我希望的那样准确,因为一些剩余的噪音。
我们一直在尝试音频比较,因为我们有一个包含字典中单词的波形文件列表,比较是通过 MusicG 库完成的,但它没有按预期工作。
最近我一直在想一些机器学习算法,我可以教程序,例如音频 "Dog" 是字符串 "dog" 然后重复它直到程序自动识别它。
是否有任何 good/known 库可以处理音频文件?
如果是这样,最好的教学方法是什么?音频文件的字节数?波长?
此外,如果您知道其他方法可以实现我的期望,请告诉我。
您可以考虑结合使用一组音频文件进行训练来研究隐马尔可夫模型。 HMM 方法对符号之间的转移概率建模。您可以调整决策过程中 "remembered" 的状态数。
作为分析的一部分,您需要考虑时间扭曲方面 - 即符号内停顿在训练和匹配的音频之间会有所不同。
@Evan Knowles 补充说,MFCC 是从语音中创建 HMM 就绪符号的标准方法。
我们一直在尝试从嘈杂的音频文件中识别单词,我 googled 很多,使用了一堆 API 来从嘈杂的音频文件中分离单词,还尝试了 SOX,它有点准确(80%单词的拆分正确),现在我需要识别这些单词,我已经尝试 google speech api 从 Java 调用它,但它并不像我希望的那样准确,因为一些剩余的噪音。
我们一直在尝试音频比较,因为我们有一个包含字典中单词的波形文件列表,比较是通过 MusicG 库完成的,但它没有按预期工作。
最近我一直在想一些机器学习算法,我可以教程序,例如音频 "Dog" 是字符串 "dog" 然后重复它直到程序自动识别它。
是否有任何 good/known 库可以处理音频文件? 如果是这样,最好的教学方法是什么?音频文件的字节数?波长?
此外,如果您知道其他方法可以实现我的期望,请告诉我。
您可以考虑结合使用一组音频文件进行训练来研究隐马尔可夫模型。 HMM 方法对符号之间的转移概率建模。您可以调整决策过程中 "remembered" 的状态数。
作为分析的一部分,您需要考虑时间扭曲方面 - 即符号内停顿在训练和匹配的音频之间会有所不同。
@Evan Knowles 补充说,MFCC 是从语音中创建 HMM 就绪符号的标准方法。