Microsoft 自定义语音服务 (CRIS)

Microsoft Custom Speech Service (CRIS)

我正在使用 CRIS 进行 POC,我们正在构建一个语音机器人,并希望针对动态条件和实时场景训练我们的机器人。

正如 CRIS 中提到的,我们可以通过构建自定义声学模型来克服背景噪音障碍,我也想实现同样的目标。

我根据大约 4.5 小时的长度构建了 2 个自定义语音模型。 第一个模型基于没有背景噪音的干净音频文件。 第二个模型基于相同的音频文件,上面叠加了噪音。

上下文中的语言是简单的英语,没有特定的词汇。

两个模型的数据集相同,唯一的区别是在第二个模型的数据集中,所有文件都叠加了静态背景噪声。

我运行基于音频文件叠加噪声的准确度测试,但结果是st运行ge。 第二个模型给了我 93% 的 WER,第一个模型给了我 100% 的 WER,这对我来说真的是 st运行ge 因为第一个模型是针对背景噪声而不是第一个模型进行训练的,理论上第二个模型应该给出更少WER 与第一个模型相比。

因为我在 CRIS 中看不到幕后发生的事情,我想知道 CRIS 是否在背景噪音下给出了有效的结果,或者它真的有效,如果是,那么我做错了什么,因为我尝试了多次结果。

首先,93% 的 WER 是非常高的,只有当你在听的时候几乎听不懂音频时才会发生。

据我了解,您创建了 3 个数据集:

  • training_1:4.5 小时的纯净音频
  • training_2:4.5 小时的嘈杂音频
  • test_1:几分钟的嘈杂音频

我假设 training_2 和 test_1 中的噪音相似。注意:您不能在 training_2 中添加人工噪声并在 test_1 中使用真实噪声。训练数据必须能够代表测试数据。

如果我做对了,当你用 training_1 训练的模型解码 test_1 中的音频时,你会得到 93% 的 WER。当您使用 training_2 训练的模型解码 test_1 时,您将获得 100% WER。如果您使用我们的基准模型(Microsoft 会话模型)解码 test_1,您会得到什么 WER?您可以简单地创建一个新的准确性测试来获得这个值。

如果您想分享更多详细信息和数据,请联系我们(link 在 https://cris.ai/ 底部)。我们可以仔细看看哪里出了问题。

感谢您对自定义语音服务的关注。