GMM-HMM 中的参数数量

Number of parameters in GMM-HMM

我想了解高斯混合模型在隐马尔可夫模型中的使用。

假设,我们有语音数据,我们正在识别 5 个语音(它们是 HMM 的状态)。例如 'X' 是语音样本,O = (s,u,h,b,a)(考虑字符而不是音素只是为了简单起见)是 HMM 状态。现在,我们使用 3 个混合的高斯混合模型使用以下等式估计每个状态的高斯密度(抱歉,由于声誉点无法上传图像)。

P(X|O) = sum (i=1->3) w(i) * P (X|mu(i), var(i))(考虑单变量分布)

因此,我们首先使用 EM 算法从训练数据中学习 GMM 参数。 然后使用这些参数来学习 HMM 参数,完成后,我们将它们都用于测试数据。 在此示例中,我们总共学习了 GMM 的 3 * 3 * 5(3 个混合和 5 个状态的权重、均值和方差)参数。 我的理解正确吗?

你的理解大部分是正确的,但是参数的个数通常比较多。均值和方差是向量,而不是数字。对于完全协方差 GMM 的罕见情况,方差可以是矩阵。每个向量通常包含 13 个倒谱 + 13 个增量 + 13 个增量-增量的 39 个分量。

所以你每 phone 学习

39 + 39 + 1 = 79 parameters

参数总数为

79 * 5 = 395

而且,通常phone是由3个左右的状态组成的,而不是来自一个状态。所以你有 395 * 3 或 1185 个参数仅用于 GMM。然后你需要一个 HMM 的转换矩阵。参数数量很大,这就是为什么训练需要大量数据。