spark pipeline vector assembler 删除其他列
spark pipeline vector assembler drop other columns
一个火花VectorAssembler
http://spark.apache.org/docs/latest/ml-features.html#vectorassembler产生以下输出
id | hour | mobile | userFeatures | clicked | features
----|------|--------|------------------|---------|-----------------------------
0 | 18 | 1.0 | [0.0, 10.0, 0.5] | 1.0 | [18.0, 1.0, 0.0, 10.0, 0.5]
如您所见,最后一列包含之前的所有功能。如果删除其他列,它会更好/性能更好吗?仅保留 label/id 和特征,或者这是不必要的开销,只需将 label/id 和特征输入估算器就足够了吗?
在管道中使用 VectorAssembler
时会发生什么情况?如果不手动删除原始列,将只使用最后一个特征还是会引入共线性(重复列)?
请仔细阅读文档。每个分类器都由特征列 (featuresCol
) 参数化。它不考虑任何其他列或列的顺序。
一个火花VectorAssembler
http://spark.apache.org/docs/latest/ml-features.html#vectorassembler产生以下输出
id | hour | mobile | userFeatures | clicked | features
----|------|--------|------------------|---------|-----------------------------
0 | 18 | 1.0 | [0.0, 10.0, 0.5] | 1.0 | [18.0, 1.0, 0.0, 10.0, 0.5]
如您所见,最后一列包含之前的所有功能。如果删除其他列,它会更好/性能更好吗?仅保留 label/id 和特征,或者这是不必要的开销,只需将 label/id 和特征输入估算器就足够了吗?
在管道中使用 VectorAssembler
时会发生什么情况?如果不手动删除原始列,将只使用最后一个特征还是会引入共线性(重复列)?
请仔细阅读文档。每个分类器都由特征列 (featuresCol
) 参数化。它不考虑任何其他列或列的顺序。