R中许多相同点的k均值
k-means for many same points in R
假设我有一个一维数据集,其中包含许多相同的数字,例如数据集S = c(rep(4, times(1000)), rep(5, times(808)), rep(9, times(990)))
。有什么有效的方法可以在 R 中执行 k-means 吗?实际上,在我的数据中,我只有大约 20 个不同的点,但每个点都出现了大约 100000 次,运行速度非常慢。所以想知道有没有更高效的方法
K-means 可以用 权重 来实现。这样做很简单。
但是 IIRC 包含在 R 中的版本不是这样实现的。 flexcluster
上的版本可能 是,但它是纯 R 并且慢得多。
无论哪种方式,您都希望在 Fortran 或 C 中实现它,就像常规的 kmeans 版本一样。也许您可以找到一些已经实现良好的软件包。
假设我有一个一维数据集,其中包含许多相同的数字,例如数据集S = c(rep(4, times(1000)), rep(5, times(808)), rep(9, times(990)))
。有什么有效的方法可以在 R 中执行 k-means 吗?实际上,在我的数据中,我只有大约 20 个不同的点,但每个点都出现了大约 100000 次,运行速度非常慢。所以想知道有没有更高效的方法
K-means 可以用 权重 来实现。这样做很简单。
但是 IIRC 包含在 R 中的版本不是这样实现的。 flexcluster
上的版本可能 是,但它是纯 R 并且慢得多。
无论哪种方式,您都希望在 Fortran 或 C 中实现它,就像常规的 kmeans 版本一样。也许您可以找到一些已经实现良好的软件包。