紧急无线电录音的语音识别
Speech Recognition of Emergency Radio Recordings
刚接触语音识别,请原谅我的无知。我正在尝试获取紧急无线电通告的副本 example1 example2。显然,我做错了什么,因为 none 高级 ASR(自动语音识别)工具可以从中得到任何意义。
我试过了IBM Watson, Google Speech and even Cobalt。 None 他们甚至可以从音频中收集到最基本的信息。
这是一个由两部分组成的问题。是否可以通过 ASR 工具使用上述示例中的音频?在通过 API 发送之前我应该做一些转换吗?
Is audio like the examples above even usable through ASR tools?
是的,你可以非常可靠地识别这些东西,但你必须构建一个自定义的 ASR 系统,因为传统的系统无法处理这种音频质量。
Is there some transformations I should be doing before sending through the APIs?
不,使用针对您的特定数据类型训练的专用模型会更有效率。
Cobalt 可以为此构建一个自定义解决方案。您可以使用 Kaldi 等开源工具包自行构建模型。另一家检查此类音频专门解决方案的公司是 Adacel,他们在机场塔楼工作,因此具有类似类型的音频。
如需研究该主题,您可以查看有关自定义的项目 Apollo mission transcription system。
您还需要在获得更好质量的音频方面付出更多努力。
刚接触语音识别,请原谅我的无知。我正在尝试获取紧急无线电通告的副本 example1 example2。显然,我做错了什么,因为 none 高级 ASR(自动语音识别)工具可以从中得到任何意义。
我试过了IBM Watson, Google Speech and even Cobalt。 None 他们甚至可以从音频中收集到最基本的信息。
这是一个由两部分组成的问题。是否可以通过 ASR 工具使用上述示例中的音频?在通过 API 发送之前我应该做一些转换吗?
Is audio like the examples above even usable through ASR tools?
是的,你可以非常可靠地识别这些东西,但你必须构建一个自定义的 ASR 系统,因为传统的系统无法处理这种音频质量。
Is there some transformations I should be doing before sending through the APIs?
不,使用针对您的特定数据类型训练的专用模型会更有效率。
Cobalt 可以为此构建一个自定义解决方案。您可以使用 Kaldi 等开源工具包自行构建模型。另一家检查此类音频专门解决方案的公司是 Adacel,他们在机场塔楼工作,因此具有类似类型的音频。
如需研究该主题,您可以查看有关自定义的项目 Apollo mission transcription system。
您还需要在获得更好质量的音频方面付出更多努力。