使用 PCA 计算原始数据集和转换后的数据集之间丢失的数据

Compute the data lost between original data set and transformed one using PCA

我在 Python 中使用 sklearn 进行主成分分析。

我的目的之一是生成一个 4 分量模型,另一个是 8 分量模型,并使用 inverse_transform.

将两者与原始数据进行比较

代码是这样的:

pca4 = PCA(n_components=4)
pca4.fit(parkinsonData)
scores4=pca.transform(parkinsonData)
reconstruct4=pca.inverse_transform(scores4)

为了计算原始数据和我所做的重建数据之间的差异:

differenceMatrix=parkinsonData-reconstruct4

现在我有不同之处,但我想计算原始数据集丢失的数据。为此,我想计算原始数据集和重建数据集的每个元素之间以 2 为幂的差值的平均值。

在最后一条语句中,我计算了原始数据集和重构数据集的每个元素之间的差异,但现在我必须计算幂。我不知道该怎么做,因为当我使用:

power=differenceMatrix**

我得到一个错误:这个矩阵不是正方形。

为了解决这个问题,我使用

np.power(differenceMatrix,differenceMatrix)

它有效,但有些元素是 NAN。我理解是因为没有正方形。

有人知道如何解决这个问题,并使用 PCA 计算原始数据集和转换后的数据集之间丢失的数据吗?

谢谢。

要对矩阵的每个元素进行平方(我想这就是你对 "powered by 2" 的意思),请使用:

np.square(differenceMatrix)

这适用于元素方面,不会限制您使用方形矩阵。矩阵中的 NaN 在输出中返回为 NaN。