K-means Spark Streaming 处理了多少次相同的数据?

How many times K-means Spark Streaming processed the same data?

我是 Spark Streaming 的新手,我想使用 K-means,但是当我学习这个时我可以'不明白 Spark Streaming 上的 K-means 有多少次使用相同的数据?

也就是说,K-means算法是迭代的,那么如何控制它在同一个数据上运行的次数呢?。

K-means 本质上是关于 k 聚类质心。在每次迭代中,您更新数据点所属的集群,然后重新计算 k 个质心。所以马上开始,best 停止 k-means 运行 的方法不是 多少有时你 运行 算法 但在这个 运行 中计算的质心是否与前一个相同。

当簇中的点稳定时,质心也会稳定,这意味着任何进一步的迭代都不会改变簇,这就是你应该停止的地方。

但是,如果你愿意,你也可以早点停下来。您可以将算法编程为 运行 最大迭代次数。由于 k-means 运行 一遍又一遍,它有某种循环(while、for、foreach..)。您可以在其中放置一个循环计数器,并在达到所需的 运行 时停止。或者,您可以在先前的聚类质心和新的聚类质心的变化低于某个阈值时停止。