R中许多相同点的k均值

k-means for many same points in R

r
k-means

假设我有一个一维数据集，其中包含许多相同的数字，例如数据集S = c(rep(4, times(1000)), rep(5, times(808)), rep(9, times(990)))。有什么有效的方法可以在 R 中执行 k-means 吗？实际上，在我的数据中，我只有大约 20 个不同的点，但每个点都出现了大约 100000 次，运行速度非常慢。所以想知道有没有更高效的方法

K-means 可以用权重来实现。这样做很简单。

但是 IIRC 包含在 R 中的版本不是这样实现的。 flexcluster 上的版本可能 是，但它是纯 R 并且慢得多。

无论哪种方式，您都希望在 Fortran 或 C 中实现它，就像常规的 kmeans 版本一样。也许您可以找到一些已经实现良好的软件包。