Spark MLLib 中 Kmeans++ 中的 initializationSteps 参数到底是什么?

What exactly is the initializationSteps parameter in Kmeans++ in Spark MLLib?

我知道什么是k-means,也知道什么是k-means++算法。我相信唯一的变化是找到初始 K 中心的方式。

在 ++ 版本中,我们首先选择一个中心,然后使用概率分布选择剩余的 k-1 个中心。

在 k-means 的 MLLib 算法中,initializationSteps 参数是什么?

准确的说k-means++是一种选择初始中心的算法,并没有描述整个训练过程。

MLLib k-means 使用 k-means|| 进行初始化,这是 ++ 的分布式变体。它采样的不是一个点,而是多个点的迭代次数。

initializationSteps 对应于迭代次数,根据 the original paper 应该大致为 O(log n).