PCA——取均值差

Question

在考虑均值时，数字 1 和数字 2 背后的直觉是什么？这将如何影响性能和准确性？

1 号：

    pca = decomposition.PCA(n_components=4)
    X_centered = X - X.mean(axis=0)
    pca.fit(X_centered)
    X_pca = pca.transform(X_centered)

2号：

    pca = decomposition.PCA(n_components=4)
    pca.fit(X)
    X_pca = pca.transform(X)

提前致谢

Answer 1

都会一样。在某种程度上，PCA 找到一组基向量，它们与每个基向量正交，并最大化一组点投影到它们上的方差。 PCA 因此有 rotation and translation symmetry。因此，每当您将矩阵（这实际上是减去均值所做的）移动到 not 时，您将获得相同的 PCA 结果。

Answer 2

如果某些变量的方差较大而某些变量较小，PCA（最大化方差）将加载较大的方差。例如，如果您将一个变量从 km 更改为 cm（增加其方差），它可能会从影响很小变为主导第一主成分。如果您希望您的 PCA 独立于这种重新缩放，那么标准化变量就可以做到这一点。另一方面，如果您的变量的具体规模很重要（因为您希望 PCA 处于该规模），也许您不想标准化。

PCA——取均值差

PCA - taking difference with mean

python

aggregate

pca