基于kmeans聚类中心绘制边界线

Question

我对 scikit learn 很陌生，但想尝试一个有趣的项目。

我有英国各点的经度和纬度，我曾使用 scikit 创建聚类中心学习 KMeans class。为了可视化这些数据，而不是将点作为集群，我想在每个集群周围绘制边界。例如，如果一个集群是伦敦，另一个是牛津，我目前在每个城市的中心都有一个点，但我想知道是否有一种方法可以使用这些数据来创建基于我的集群的边界线？

到目前为止，这是我创建集群的代码：

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans

location1="XXX"
df = pd.read_csv(location1, encoding = "ISO-8859-1")

#Run kmeans clustering
X = df[['long','lat']].values #~2k locations in the UK
y=df['label'].values   #Label is a 0 or 1
kmeans = KMeans(n_clusters=30, random_state=0).fit(X, y)
centers=kmeans.cluster_centers_
plt.scatter(centers[:,0],centers[:,1], marker='s', s=100)

所以我希望能够将上面示例中的中心转换为划分每个区域的线 -- 这可能吗？

谢谢，

阿南特

Answer 1

我猜你是在谈论空间边界，在这种情况下你应该遵循 Bunyk 的建议并使用 Voronoi 图 [1]. Here is a practical demonstration of what you could achieve: http://nbviewer.jupyter.org/gist/pv/8037100.

Answer 2

您可以使用 Scipi 生成 Voronoi 图。 docs

对于您的代码，它将是

from scipy.spatial import Voronoi, voronoi_plot_2d
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans

location1="XXX"
df = pd.read_csv(location1, encoding = "ISO-8859-1")

#Run kmeans clustering
X = df[['long','lat']].values #~2k locations in the UK
y=df['label'].values   #Label is a 0 or 1
kmeans = KMeans(n_clusters=30, random_state=0).fit(X, y)
centers=kmeans.cluster_centers_

plt.scatter(centers[:,0],centers[:,1], marker='s', s=100)


vor = Voronoi(centers)
fig = voronoi_plot_2d(vor,plt.gca())

plt.show()

基于kmeans聚类中心绘制边界线

Drawing boundary lines based on kmeans cluster centres

python

k-means

scikit-learn