用于回归的 Spark ML 随机森林和梯度提升树

Spark ML random forest and gradient-boosted trees for regression

根据 Spark ML 文档随机森林梯度提升树可用于:class化和回归问题:

https://spark.apache.org/docs/latest/ml-classification-regression.html#gradient-boosted-tree-regression

假设我的 "label" 从 0..n 中获取整数值,我想训练这些 class 回归问题的回归问题,预测标签字段的连续变量值。但是,我没有在文档中看到应该如何为这个问题配置这两个回归器,也没有看到任何 class 参数来区分回归与 class 化的情况。那么,如何针对回归问题配置两个 classifier?

不涉及这样的配置,仅仅是因为回归和分类问题实际上是由 Spark ML 中的不同子模块处理的 & 类;即对于分类,您应该使用(假设 PySpark):

from pyspark.ml.classification import GBTClassifier  # GBT
from pyspark.ml.classification import RandomForestClassifier  # RF

而对于回归你应该分别使用

from pyspark.ml.regression import GBTRegressor  # GBT
from pyspark.ml.regression import RandomForestRegressor  # RF

查看文档中的 Classification and regression 概述了解更多详细信息。