我应该为 PCA 选择多少主成分?

How many principal components should I choose for PCA?

我有一个几乎没有分类和数字特征的数据框。为此,我将文本列的 BoW(CountVectorizer) 串联起来,产生了超过 56,000 个特征。所以我正在考虑做 PCA 来减少特征数量。

我认为选择正确数量的主成分在这里很重要,但我对这里要考虑多少 n_components 感到困惑?

您可以绘制一个图表,其中包含前 k 个组件和 k components.Choose k 的方差,基于这些组件中包含的方差。95% 或以上将是理想的。