如何在 sklearn 的新版本 kmeans 中使用预先计算的距离矩阵？

Question

我正在计算我自己的距离矩阵如下，我想用它来聚类。

import numpy as np
from math import pi

#points containing time value in minutes
points = [100, 200, 600, 659, 700]

def convert_to_radian(x):
    return((x / (24 * 60)) * 2 * pi)

rad_function = np.vectorize(convert_to_radian)
points_rad = rad_function(points)

#generate distance matrix from each point
dist = points_rad[None,:] - points_rad[:, None]

#Assign shortest distances from each point
dist[((dist > pi) & (dist <= (2*pi)))] = dist[((dist > pi) & (dist <= (2*pi)))] -(2*pi)
dist[((dist > (-2*pi)) & (dist <= (-1*pi)))] = dist[((dist > (-2*pi)) & (dist <= (-1*pi)))] + (2*pi) 
dist = abs(dist)

#check dist
print(dist)

我的距离矩阵如下所示。

[[0.         0.43633231 2.18166156 2.43909763 2.61799388]
 [0.43633231 0.         1.74532925 2.00276532 2.18166156]
 [2.18166156 1.74532925 0.         0.25743606 0.43633231]
 [2.43909763 2.00276532 0.25743606 0.         0.17889625]
 [2.61799388 2.18166156 0.43633231 0.17889625 0.        ]]

我想有 2 个集群（例如，集群 1：0,1 和集群 2：2,3,4）使用 kmeans 作为上述预先计算的距离矩阵。

当我查看 kmeans 文档时，似乎不推荐使用预计算的距离 -> precompute_distances='deprecated'。

Link 到文档：https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html

我想知道我可以研究哪些其他选项来使用我预先计算的距离矩阵执行 kmeans。

如果需要，我很乐意提供更多详细信息

Answer 1

kMeans 需要到簇的质心 ("means") 的距离（在每次迭代时），而不是点之间的成对距离。所以不像例如k-最近邻，预先计算这些数据无济于事*。此处弃用参数的含义 precompute_distances 是先计算所有点到中心的距离，还是在循环中计算；有关详细信息，请参阅 PR11950。该 PR 进行了性能增强，消除了对该参数的需求。

* 好吧，我可以看到，如果将数据放入像 BallTree（再次参见 k-neighbors）这样的搜索结构中，那么可能会有加速，这样就不需要计算所有的点-质心距离；但目前尚不清楚这有多大帮助，我认为只有当 k 很大时才会真正有用。无论如何，这里没有这样做。

Answer 2

如果您最终要将结果提供给 sklearn，您真的想使用自己的距离矩阵进行聚类吗？如果没有，那么您可以通过将点矩阵重塑为 (-1, 1) 数组来直接在数据集上使用 KMeans（numpy 使用 -1 作为一种填充物 return 的长度重塑原始轴）

import numpy as np
from math import pi
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

#points containing time value in minutes
points = [100, 200, 600, 659, 700]

def convert_to_radian(x):
    return((x / (24 * 60)) * 2 * pi)

rad_function = np.vectorize(convert_to_radian)
points_rad = rad_function(points)

lbls = KMeans(n_clusters=2).fit_predict(points_rad.reshape((-1,1)))
print(lbls) # prints the following: [0 0 1 1 1]

fig, ax = plt.subplots()

ax.scatter(points_rad, points_rad, c=lbls)

plt.show()

如何在 sklearn 的新版本 kmeans 中使用预先计算的距离矩阵？

How to use precomputed distance matrix in new version of kmeans in sklearn?

python

k-means

scikit-learn