从 Panda Dataframe 而不是样本数据进行 K 聚类

Question

我有一个 csv，我将它作为 panda 导入到我的 juypter 笔记本中。熊猫有 12 列，一个“时间戳”，然后是 11 列不同国家的数据。

我想做的是将它们可视化为一个集群。我找到了以下代码来创建一个基本集群。但是我已经苦苦挣扎了一段时间，要对我的数据做与下面完全相同的事情。有人知道我必须更改什么才能用我的熊猫数据替换随机样本数据吗？

import numpy as np
import pandas as pd
import datetime as dt
from pylab import mpl, plt
plt.style.use('seaborn')
mpl.rcParams['font.family'] = 'serif'
np.random.seed(1000)

from sklearn.datasets.samples_generator import make_blobs

X, y = make_blobs(n_samples=250, centers=4, random_state=500, cluster_std=1.25) 

plt.figure(figsize=(10,6))
plt.scatter(X[:,0], X[:,1], s=50);

Answer 1

假设你想做一个one-dimensional集群，你可以这样做：

someDF = pd.read_csv("myFile.csv")
print(someDF.columns)
columnsOfInterest = ['Austria', 'Norway', 'Belgium', 'Sweden', 'Spain']
plt.figure(figsize=(10,6))
for c in columnsOfInterest:
    plt.scatter(someDF[c], someDF[c])
plt.show()

如果你想做二维聚类（这是更典型的）你可以这样做：

someDF = pd.read_csv("myFile.csv")
print(someDF.columns)
columnsOfInterest = ['Austria', 'Norway', 'Belgium', 'Sweden', 'Spain']
secondColumn = 'OtherColumn'
plt.figure(figsize=(10,6))
for c in columnsOfInterest:
    plt.scatter(someDF[c], someDF[secondColumn])
plt.show()

从 Panda Dataframe 而不是样本数据进行 K 聚类

K clustering from Panda Dataframe instead of Sample Data

python

cluster-analysis

pandas

jupyter-notebook