用于回归的 Spark ML 随机森林和梯度提升树
Spark ML random forest and gradient-boosted trees for regression
根据 Spark ML 文档随机森林和梯度提升树可用于:class化和回归问题:
假设我的 "label" 从 0..n 中获取整数值,我想训练这些 class 回归问题的回归问题,预测标签字段的连续变量值。但是,我没有在文档中看到应该如何为这个问题配置这两个回归器,也没有看到任何 class 参数来区分回归与 class 化的情况。那么,如何针对回归问题配置两个 classifier?
不涉及这样的配置,仅仅是因为回归和分类问题实际上是由 Spark ML 中的不同子模块处理的 & 类;即对于分类,您应该使用(假设 PySpark):
from pyspark.ml.classification import GBTClassifier # GBT
from pyspark.ml.classification import RandomForestClassifier # RF
而对于回归你应该分别使用
from pyspark.ml.regression import GBTRegressor # GBT
from pyspark.ml.regression import RandomForestRegressor # RF
查看文档中的 Classification and regression 概述了解更多详细信息。
根据 Spark ML 文档随机森林和梯度提升树可用于:class化和回归问题:
假设我的 "label" 从 0..n 中获取整数值,我想训练这些 class 回归问题的回归问题,预测标签字段的连续变量值。但是,我没有在文档中看到应该如何为这个问题配置这两个回归器,也没有看到任何 class 参数来区分回归与 class 化的情况。那么,如何针对回归问题配置两个 classifier?
不涉及这样的配置,仅仅是因为回归和分类问题实际上是由 Spark ML 中的不同子模块处理的 & 类;即对于分类,您应该使用(假设 PySpark):
from pyspark.ml.classification import GBTClassifier # GBT
from pyspark.ml.classification import RandomForestClassifier # RF
而对于回归你应该分别使用
from pyspark.ml.regression import GBTRegressor # GBT
from pyspark.ml.regression import RandomForestRegressor # RF
查看文档中的 Classification and regression 概述了解更多详细信息。