spark pipeline vector assembler 删除其他列

spark pipeline vector assembler drop other columns

一个火花VectorAssembler http://spark.apache.org/docs/latest/ml-features.html#vectorassembler产生以下输出

id | hour | mobile | userFeatures     | clicked | features
----|------|--------|------------------|---------|-----------------------------
 0  | 18   | 1.0    | [0.0, 10.0, 0.5] | 1.0     | [18.0, 1.0, 0.0, 10.0, 0.5]

如您所见,最后一列包含之前的所有功能。如果删除其他列,它会更好/性能更好吗?仅保留 label/id 和特征,或者这是不必要的开销,只需将 label/id 和特征输入估算器就足够了吗?

在管道中使用 VectorAssembler 时会发生什么情况?如果不手动删除原始列,将只使用最后一个特征还是会引入共线性(重复列)?

请仔细阅读文档。每个分类器都由特征列 (featuresCol) 参数化。它不考虑任何其他列或列的顺序。