使用 sklean 和 librosa 的音频识别和指纹

Question

我想创建一个模型来预测谁用不同的词说话。

在这种情况下，我尝试使用功能

Mfcc
Melspectogram
Tempo
Chroma stft
Spectral Centroid
Spectral Bandwidth
Tempo

对于我正在使用的火车RandomforestRegressor

可以创建这样的模型吗？

Answer 1

对于声音处理和特征提取部分，librosa绝对可以满足您的需求。

然而，对于机器学习部分，说话人识别（也称为“语音识别”）是一项相对复杂的任务。您可能会使用深度学习技术获得更多成功。如果你愿意，你当然可以尝试使用随机森林，但你可能会获得较低的准确性并且将不得不花费更多时间进行特征工程。事实上，比较各种技术可以得到的结果对你来说是一个很好的练习。

有关使用 Keras 进行说话人识别的示例教程，请参见例如this article.

Audio recognition and fingerprint using sklean & librosa