在 Spark MLlib 中,如何将 Python 的 BisectingKMeansModel 保存到 HDFS?

In Spark MLlib, How to save the BisectingKMeansModel with Python to HDFS?

在 Spark MLlib 中,pyspark 中的 BisectingKMeansModel 没有 save/load 函数。 为什么? 如何使用 Python 将 BisectingKMeans 模型保存或加载到 HDFS?

可能是你的spark版本。对于平分k_means推荐2.1.0以上.

您可以在 class pyspark.ml.clustering.BisectingKMeans 上找到完整示例,希望对您有所帮助:

https://spark.apache.org/docs/2.1.0/api/python/pyspark.ml.html#pyspark.ml.clustering.BisectingKMeans%20featuresCol=%22features%22,%20predictionCol=%22prediction%22

示例代码的最后一部分包含模型 save/load:

model_path = temp_path + "/bkm_model"
model.save(model_path)
model2 = BisectingKMeansModel.load(model_path)

它也适用于 hdfs,但请确保在保存模型之前 temp_path/bkm_model 文件夹不存在,否则会出现错误:

(java.io.IOException: Path <temp_path>/bkm_model already exists)