R中许多相同点的k均值

k-means for many same points in R

假设我有一个一维数据集,其中包含许多相同的数字,例如数据集S = c(rep(4, times(1000)), rep(5, times(808)), rep(9, times(990)))。有什么有效的方法可以在 R 中执行 k-means 吗?实际上,在我的数据中,我只有大约 20 个不同的点,但每个点都出现了大约 100000 次,运行速度非常慢。所以想知道有没有更高效的方法

K-means 可以用 权重 来实现。这样做很简单。

但是 IIRC 包含在 R 中的版本不是这样实现的。 flexcluster 上的版本可能 是,但它是纯 R 并且慢得多。

无论哪种方式,您都希望在 Fortran 或 C 中实现它,就像常规的 kmeans 版本一样。也许您可以找到一些已经实现良好的软件包。