说话人相关语音识别系统需要多少训练数据?

How much training data is needed for a speaker-dependent speech recognition system?

要实现一个高精度(< 15% WER)说话人相关的 ASR 系统,说话人需要多少训练数据?

此外,说话人相关模型通常是否辅以更大的音频语料库(来自许多说话人)?还是他们只使用来自单个扬声器的数据?

To implement a high-accuracy (< 15% WER) speaker-dependent ASR system, how much training data is needed from the speaker?

30-40 小时。

Also, are speaker-dependent models usually supplemented with a larger corpus of audio (from many speakers)?

有时。

Or do they only use data from the single speaker?

可以从 1-2 小时的说话人数据和来自其他说话人的 300 多个小时的数据构建依赖于说话人的说话人。与收集单个说话人数据相比,它没有那么直接。

答案因您使用的库而异。对于嵌入式语音控制系统,我使用了 Sensory 的 TrulyHandsFree SDK 并进行了特定扬声器的培训。他们的过程从说话人独立模型开始并以此为基础调整识别网络。要执行相当准确的说话人识别,需要 512 到 1024 个特定于说话人的训练样本,因此需要 45 分钟到 3 小时的数据。

但是,如果您不需要说话人识别,默认模型的准确率超过 85%,假设语法规模很小,没有任何针对说话人的训练。我所做的所有工作都使用相对较小的语法,因此说话人识别是我们进行说话人特定训练的唯一原因。

如果您需要任何类型的不受限制的 ASR,那不在我的实践范围内。