如何对说话人识别的 MFCC 系数向量进行排序?

How to sequence of MFCC coefficients vectors for speaker recognition?

该项目是使用 SVM 进行说话人识别,使用 MFCC 作为特征集。通常 MFCC 系数以 window 大小(以毫秒为单位)创建。但是,由于说话者只讲了几秒钟,所以至少可以在 SVM 中使用 MFCC 序列。问题是如何做到这一点。通常,SVM 或任何内核都将一个向量作为输入,但在这种情况下,我们可以使用多个向量或矩阵来增加鲁棒性。 SVM 如何学习矩阵而不是向量?

传统的方法是使用专门的数学模型来分析MFCC序列中的因素并提取说话人向量。你放弃了 MFCC 中与实际单词相关的可变性,你放弃了与语调相关的可变性,只留下与说话者相关的因素。稍后可以使用 SVM 分析说话者向量。您可以从 i-vector tutorial.

查看详细信息

更高级的研究使用神经网络来提取说话人向量,即所谓的 d-vectors

然后使用 SVM 对 d 向量进行分类。