使用 python 的 Spark 多类分类

Spark Multiclass Classification using python

我正在尝试使用 pySpark 实现多类分类,我花了很多时间在网上搜索,并且我了解到现在可以使用 Spark 2.1.0。

我已经生成了我自己的具有全数值特征的数据集,并且创建了一个 DataFrame,如下所示;

我有三个 类 'Service_Level',它们是 0、1 或 2。

问题:

  1. 如果我有这些功能,是否必须使用 LabeledPoints?
  2. 如何使用多层感知器代替逻辑回归?

谢谢。

既然没有答案,我就分享一下我在研究中观察到的。在 Spark 2.1.0 中使用现在处于维护模式的 Spark MLlib 时,可以使用标记点。但是,我的特征是分类的,因此使用 DataFrame API 和 Spark ML,我不得不使用 StringIndexer、OneHotEncoder 和管道将它们转换为向量以 select 我的特征和标签。

回答问题
是的,标记点可以与这些功能一起使用,但在使用 Spark MLlib 时。我无法实现多层感知器,因为它以某种方式需要 libsvm 格式的数据,而我没有并且无法将我的 CSV 转换成这样。

在最后的实现中,我不得不使用基于Dataframe的API Spark ml