从嘈杂的音频文件中识别单词的机器学习库

Machine learning library to recognize words from noisy audio file

我们一直在尝试从嘈杂的音频文件中识别单词，我 googled 很多，使用了一堆 API 来从嘈杂的音频文件中分离单词，还尝试了 SOX，它有点准确（80%单词的拆分正确），现在我需要识别这些单词，我已经尝试 google speech api 从 Java 调用它，但它并不像我希望的那样准确，因为一些剩余的噪音。

我们一直在尝试音频比较，因为我们有一个包含字典中单词的波形文件列表，比较是通过 MusicG 库完成的，但它没有按预期工作。

最近我一直在想一些机器学习算法，我可以教程序，例如音频 "Dog" 是字符串 "dog" 然后重复它直到程序自动识别它。

是否有任何 good/known 库可以处理音频文件？如果是这样，最好的教学方法是什么？音频文件的字节数？波长？

此外，如果您知道其他方法可以实现我的期望，请告诉我。

您可以考虑结合使用一组音频文件进行训练来研究隐马尔可夫模型。 HMM 方法对符号之间的转移概率建模。您可以调整决策过程中 "remembered" 的状态数。

作为分析的一部分，您需要考虑时间扭曲方面 - 即符号内停顿在训练和匹配的音频之间会有所不同。

@Evan Knowles 补充说，MFCC 是从语音中创建 HMM 就绪符号的标准方法。

从嘈杂的音频文件中识别单词的机器学习库

Machine learning library to recognize words from noisy audio file

java

machine-learning

sox