使用 PCA 计算原始数据集和转换后的数据集之间丢失的数据

Question

我在 Python 中使用 sklearn 进行主成分分析。

我的目的之一是生成一个 4 分量模型，另一个是 8 分量模型，并使用 inverse_transform.

将两者与原始数据进行比较

代码是这样的：

pca4 = PCA(n_components=4)
pca4.fit(parkinsonData)
scores4=pca.transform(parkinsonData)
reconstruct4=pca.inverse_transform(scores4)

为了计算原始数据和我所做的重建数据之间的差异：

differenceMatrix=parkinsonData-reconstruct4

现在我有不同之处，但我想计算原始数据集丢失的数据。为此，我想计算原始数据集和重建数据集的每个元素之间以 2 为幂的差值的平均值。

在最后一条语句中，我计算了原始数据集和重构数据集的每个元素之间的差异，但现在我必须计算幂。我不知道该怎么做，因为当我使用：

power=differenceMatrix**

我得到一个错误：这个矩阵不是正方形。

为了解决这个问题，我使用

np.power(differenceMatrix,differenceMatrix)

它有效，但有些元素是 NAN。我理解是因为没有正方形。

有人知道如何解决这个问题，并使用 PCA 计算原始数据集和转换后的数据集之间丢失的数据吗？

谢谢。

Answer 1

要对矩阵的每个元素进行平方（我想这就是你对 "powered by 2" 的意思），请使用：

np.square(differenceMatrix)

这适用于元素方面，不会限制您使用方形矩阵。矩阵中的 NaN 在输出中返回为 NaN。

Compute the data lost between original data set and transformed one using PCA