从 sklearn PCA 获取特征值和向量
Obtain eigen values and vectors from sklearn PCA
如何获取 PCA 应用程序的特征值和特征向量?
from sklearn.decomposition import PCA
clf=PCA(0.98,whiten=True) #converse 98% variance
X_train=clf.fit_transform(X_train)
X_test=clf.transform(X_test)
我在 docs 中找不到它。
1.I 我 "not" 能够理解这里的不同结果。
编辑:
def pca_code(data):
#raw_implementation
var_per=.98
data-=np.mean(data, axis=0)
data/=np.std(data, axis=0)
cov_mat=np.cov(data, rowvar=False)
evals, evecs = np.linalg.eigh(cov_mat)
idx = np.argsort(evals)[::-1]
evecs = evecs[:,idx]
evals = evals[idx]
variance_retained=np.cumsum(evals)/np.sum(evals)
index=np.argmax(variance_retained>=var_per)
evecs = evecs[:,:index+1]
reduced_data=np.dot(evecs.T, data.T).T
print(evals)
print("_"*30)
print(evecs)
print("_"*30)
#using scipy package
clf=PCA(var_per)
X_train=data.T
X_train=clf.fit_transform(X_train)
print(clf.explained_variance_)
print("_"*30)
print(clf.components_)
print("__"*30)
- 我希望获得所有的特征值和特征向量,而不仅仅是具有收敛条件的缩减集。
您的实施
您正在计算 相关矩阵 的特征向量,即 归一化 变量的协方差矩阵。
data/=np.std(data, axis=0)
不是经典 PCA 的一部分,我们只是将变量居中。
所以 sklearn PCA 没有预先缩放数据的功能。
除此之外,如果我们抽象出您提供的代码没有 运行 ;) 的事实,您就走在了正确的轨道上。
您只是对 row/column 布局感到困惑。老实说,我认为从 X = data.T
开始并从那里开始只使用 X 会容易得多。我在 post.
末尾添加了您的代码 'fixed'
获取特征值
您已经注意到您可以使用 clf.components_
获得特征向量。
所以你有主成分。它们是 协方差 矩阵 ᵀ.
的特征向量
从那里检索特征值的一种方法是将此矩阵应用于每个主成分并将结果投影到成分上。
让 v_1 成为第一主成分,lambda_1 成为相关的特征值。我们有:
因此:
since 。 (x, y) 向量 x 和 y 的标量积。
回到 Python 你可以做:
n_samples = X.shape[0]
# We center the data and compute the sample covariance matrix.
X -= np.mean(X, axis=0)
cov_matrix = np.dot(X.T, X) / n_samples
for eigenvector in pca.components_:
print(np.dot(eigenvector.T, np.dot(cov_matrix, eigenvector)))
你得到与特征向量关联的特征值。
好吧,在我的测试中,结果证明它不适用于最后几个特征值,但我将其归因于我缺乏数值稳定性技能。
现在这不是获取特征值的最佳方法,但很高兴知道它们的来源。
特征值表示特征向量方向上的方差。所以你可以通过pca.explained_variance_
属性得到它们:
eigenvalues = pca.explained_variance_
这是一个可重现的示例,它打印了您使用每种方法获得的特征值:
import numpy as np
from sklearn.decomposition import PCA
from sklearn.datasets import make_classification
X, y = make_classification(n_samples=1000)
n_samples = X.shape[0]
pca = PCA()
X_transformed = pca.fit_transform(X)
# We center the data and compute the sample covariance matrix.
X_centered = X - np.mean(X, axis=0)
cov_matrix = np.dot(X_centered.T, X_centered) / n_samples
eigenvalues = pca.explained_variance_
for eigenvalue, eigenvector in zip(eigenvalues, pca.components_):
print(np.dot(eigenvector.T, np.dot(cov_matrix, eigenvector)))
print(eigenvalue)
您的原始代码,已修复
如果你 运行 它你会看到值是一致的。它们并不完全相等,因为 numpy 和 scikit-learn 在这里没有使用相同的算法。
如上所述,最主要的是您使用的是相关矩阵而不是协方差。此外,您还从 numpy 中获得了 transposed 特征向量,这让人非常困惑。
import numpy as np
from scipy.stats.mstats import zscore
from sklearn.decomposition import PCA
def pca_code(data):
#raw_implementation
var_per=.98
data-=np.mean(data, axis=0)
# data/=np.std(data, axis=0)
cov_mat=np.cov(data, rowvar=False)
evals, evecs = np.linalg.eigh(cov_mat)
idx = np.argsort(evals)[::-1]
evecs = evecs[:,idx]
evals = evals[idx]
variance_retained=np.cumsum(evals)/np.sum(evals)
index=np.argmax(variance_retained>=var_per)
evecs = evecs[:,:index+1]
reduced_data=np.dot(evecs.T, data.T).T
print("evals", evals)
print("_"*30)
print(evecs.T[1, :])
print("_"*30)
#using scipy package
clf=PCA(var_per)
X_train=data
X_train=clf.fit_transform(X_train)
print(clf.explained_variance_)
print("_"*30)
print(clf.components_[1,:])
print("__"*30)
希望这对您有所帮助,欢迎随时要求澄清。
我使用了sklearn PCA函数。 return参数'components_'是特征向量,'explained_variance_'是特征值。下面是我的测试代码。
from sklearn.decomposition import PCA
import numpy as np
def main():
data = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9], [1.9, 2.2], [3.1, 3.0], [2.3, 2.7], [2, 1.6], [1, 1.1], [1.5, 1.6], [1.1, 0.9]])
print(data)
pca = PCA()
pca.fit(data)
print(pca.components_)
print(pca.explained_variance_)
if __name__ == "__main__":
main()
当您说 "eigenvalues" 时,您是指 PCA 的 "singular values" 吗?只有当应用的矩阵 PCA 是方阵时,特征值才有可能。
如果您尝试使用 "eigenvalues" 来确定 PCA 所需的正确维度,您实际上应该使用奇异值。您可以只使用 pca.singular_values_ 来获取奇异值。
如何获取 PCA 应用程序的特征值和特征向量?
from sklearn.decomposition import PCA
clf=PCA(0.98,whiten=True) #converse 98% variance
X_train=clf.fit_transform(X_train)
X_test=clf.transform(X_test)
我在 docs 中找不到它。
1.I 我 "not" 能够理解这里的不同结果。
编辑:
def pca_code(data):
#raw_implementation
var_per=.98
data-=np.mean(data, axis=0)
data/=np.std(data, axis=0)
cov_mat=np.cov(data, rowvar=False)
evals, evecs = np.linalg.eigh(cov_mat)
idx = np.argsort(evals)[::-1]
evecs = evecs[:,idx]
evals = evals[idx]
variance_retained=np.cumsum(evals)/np.sum(evals)
index=np.argmax(variance_retained>=var_per)
evecs = evecs[:,:index+1]
reduced_data=np.dot(evecs.T, data.T).T
print(evals)
print("_"*30)
print(evecs)
print("_"*30)
#using scipy package
clf=PCA(var_per)
X_train=data.T
X_train=clf.fit_transform(X_train)
print(clf.explained_variance_)
print("_"*30)
print(clf.components_)
print("__"*30)
- 我希望获得所有的特征值和特征向量,而不仅仅是具有收敛条件的缩减集。
您的实施
您正在计算 相关矩阵 的特征向量,即 归一化 变量的协方差矩阵。
data/=np.std(data, axis=0)
不是经典 PCA 的一部分,我们只是将变量居中。
所以 sklearn PCA 没有预先缩放数据的功能。
除此之外,如果我们抽象出您提供的代码没有 运行 ;) 的事实,您就走在了正确的轨道上。
您只是对 row/column 布局感到困惑。老实说,我认为从 X = data.T
开始并从那里开始只使用 X 会容易得多。我在 post.
获取特征值
您已经注意到您可以使用 clf.components_
获得特征向量。
所以你有主成分。它们是 协方差 矩阵 ᵀ.
的特征向量从那里检索特征值的一种方法是将此矩阵应用于每个主成分并将结果投影到成分上。
让 v_1 成为第一主成分,lambda_1 成为相关的特征值。我们有:
回到 Python 你可以做:
n_samples = X.shape[0]
# We center the data and compute the sample covariance matrix.
X -= np.mean(X, axis=0)
cov_matrix = np.dot(X.T, X) / n_samples
for eigenvector in pca.components_:
print(np.dot(eigenvector.T, np.dot(cov_matrix, eigenvector)))
你得到与特征向量关联的特征值。 好吧,在我的测试中,结果证明它不适用于最后几个特征值,但我将其归因于我缺乏数值稳定性技能。
现在这不是获取特征值的最佳方法,但很高兴知道它们的来源。
特征值表示特征向量方向上的方差。所以你可以通过pca.explained_variance_
属性得到它们:
eigenvalues = pca.explained_variance_
这是一个可重现的示例,它打印了您使用每种方法获得的特征值:
import numpy as np
from sklearn.decomposition import PCA
from sklearn.datasets import make_classification
X, y = make_classification(n_samples=1000)
n_samples = X.shape[0]
pca = PCA()
X_transformed = pca.fit_transform(X)
# We center the data and compute the sample covariance matrix.
X_centered = X - np.mean(X, axis=0)
cov_matrix = np.dot(X_centered.T, X_centered) / n_samples
eigenvalues = pca.explained_variance_
for eigenvalue, eigenvector in zip(eigenvalues, pca.components_):
print(np.dot(eigenvector.T, np.dot(cov_matrix, eigenvector)))
print(eigenvalue)
您的原始代码,已修复
如果你 运行 它你会看到值是一致的。它们并不完全相等,因为 numpy 和 scikit-learn 在这里没有使用相同的算法。
如上所述,最主要的是您使用的是相关矩阵而不是协方差。此外,您还从 numpy 中获得了 transposed 特征向量,这让人非常困惑。
import numpy as np
from scipy.stats.mstats import zscore
from sklearn.decomposition import PCA
def pca_code(data):
#raw_implementation
var_per=.98
data-=np.mean(data, axis=0)
# data/=np.std(data, axis=0)
cov_mat=np.cov(data, rowvar=False)
evals, evecs = np.linalg.eigh(cov_mat)
idx = np.argsort(evals)[::-1]
evecs = evecs[:,idx]
evals = evals[idx]
variance_retained=np.cumsum(evals)/np.sum(evals)
index=np.argmax(variance_retained>=var_per)
evecs = evecs[:,:index+1]
reduced_data=np.dot(evecs.T, data.T).T
print("evals", evals)
print("_"*30)
print(evecs.T[1, :])
print("_"*30)
#using scipy package
clf=PCA(var_per)
X_train=data
X_train=clf.fit_transform(X_train)
print(clf.explained_variance_)
print("_"*30)
print(clf.components_[1,:])
print("__"*30)
希望这对您有所帮助,欢迎随时要求澄清。
我使用了sklearn PCA函数。 return参数'components_'是特征向量,'explained_variance_'是特征值。下面是我的测试代码。
from sklearn.decomposition import PCA
import numpy as np
def main():
data = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9], [1.9, 2.2], [3.1, 3.0], [2.3, 2.7], [2, 1.6], [1, 1.1], [1.5, 1.6], [1.1, 0.9]])
print(data)
pca = PCA()
pca.fit(data)
print(pca.components_)
print(pca.explained_variance_)
if __name__ == "__main__":
main()
当您说 "eigenvalues" 时,您是指 PCA 的 "singular values" 吗?只有当应用的矩阵 PCA 是方阵时,特征值才有可能。
如果您尝试使用 "eigenvalues" 来确定 PCA 所需的正确维度,您实际上应该使用奇异值。您可以只使用 pca.singular_values_ 来获取奇异值。