在 Spark MLlib 中，如何将 Python 的 BisectingKMeansModel 保存到 HDFS？

Question

在 Spark MLlib 中，pyspark 中的 BisectingKMeansModel 没有 save/load 函数。为什么？如何使用 Python 将 BisectingKMeans 模型保存或加载到 HDFS？

Answer 1

可能是你的spark版本。对于平分k_means推荐2.1.0以上.

您可以在 class pyspark.ml.clustering.BisectingKMeans 上找到完整示例，希望对您有所帮助：

示例代码的最后一部分包含模型 save/load:

model_path = temp_path + "/bkm_model"
model.save(model_path)
model2 = BisectingKMeansModel.load(model_path)

它也适用于 hdfs，但请确保在保存模型之前 temp_path/bkm_model 文件夹不存在，否则会出现错误：

(java.io.IOException: Path <temp_path>/bkm_model already exists)

In Spark MLlib, How to save the BisectingKMeansModel with Python to HDFS?