紧急无线电录音的语音识别

Speech Recognition of Emergency Radio Recordings

刚接触语音识别,请原​​谅我的无知。我正在尝试获取紧急无线电通告的副本 example1 example2。显然,我做错了什么,因为 none 高级 ASR(自动语音识别)工具可以从中得到任何意义。

我试过了IBM Watson, Google Speech and even Cobalt。 None 他们甚至可以从音频中收集到最基本的信息。

这是一个由两部分组成的问题。是否可以通过 ASR 工具使用上述示例中的音频?在通过 API 发送之前我应该​​做一些转换吗?

Is audio like the examples above even usable through ASR tools?

是的,你可以非常可靠地识别这些东西,但你必须构建一个自定义的 ASR 系统,因为传统的系统无法处理这种音频质量。

Is there some transformations I should be doing before sending through the APIs?

不,使用针对您的特定数据类型训练的专用模型会更有效率。

Cobalt 可以为此构建一个自定义解决方案。您可以使用 Kaldi 等开源工具包自行构建模型。另一家检查此类音频专门解决方案的公司是 Adacel,他们在机场塔楼工作,因此具有类似类型的音频。

如需研究该主题,您可以查看有关自定义的项目 Apollo mission transcription system

您还需要在获得更好质量的音频方面付出更多努力。