用于回归的 Spark ML 随机森林和梯度提升树

Question

根据 Spark ML 文档随机森林和梯度提升树可用于：class化和回归问题：

https://spark.apache.org/docs/latest/ml-classification-regression.html#gradient-boosted-tree-regression

假设我的 "label" 从 0..n 中获取整数值，我想训练这些 class 回归问题的回归问题，预测标签字段的连续变量值。但是，我没有在文档中看到应该如何为这个问题配置这两个回归器，也没有看到任何 class 参数来区分回归与 class 化的情况。那么，如何针对回归问题配置两个 classifier？

Answer 1

不涉及这样的配置，仅仅是因为回归和分类问题实际上是由 Spark ML 中的不同子模块处理的 & 类；即对于分类，您应该使用（假设 PySpark）：

from pyspark.ml.classification import GBTClassifier  # GBT
from pyspark.ml.classification import RandomForestClassifier  # RF

而对于回归你应该分别使用

from pyspark.ml.regression import GBTRegressor  # GBT
from pyspark.ml.regression import RandomForestRegressor  # RF

查看文档中的 Classification and regression 概述了解更多详细信息。

用于回归的 Spark ML 随机森林和梯度提升树

Spark ML random forest and gradient-boosted trees for regression

regression

classification

machine-learning

apache-spark

apache-spark-ml