如何在新的 Spark ml 库中设置 K-Means 中的 epsilon

Question

在spark.mllib库中，KMeans有在构建Kmeans实例时设置epsilon参数的功能。

但是我在 Kmeans 新 Spark.ml 库中没有看到任何函数来设置这个参数。我问的原因是因为新 KMeans 生成的聚类数量少于我在 setK() 方法中指定的数量，所以我想通过稍微减少 epsilon 来增加生成的聚类数量。

有谁知道如何在新 Spark.ml Kmeans class 中设置 epsilon？

org.apache.spark.ml.clustering.KMeans

谢谢。

Answer 1

spark.ml 库中的 Epsilon 已重命名为 tol（tolerance 的缩写）

示例：

KMeans kmeans = new KMeans().setK(2).setSeed(1L).setTol(0.0001)
KMeansModel model = kmeans.fit(dataset);

How to setup epsilon in K-Means in new Spark ml library