从 Panda Dataframe 而不是样本数据进行 K 聚类
K clustering from Panda Dataframe instead of Sample Data
我有一个 csv,我将它作为 panda 导入到我的 juypter 笔记本中。
熊猫有 12 列,一个“时间戳”,然后是 11 列不同国家的数据。
我想做的是将它们可视化为一个集群。我找到了以下代码来创建一个基本集群。但是我已经苦苦挣扎了一段时间,要对我的数据做与下面完全相同的事情。有人知道我必须更改什么才能用我的熊猫数据替换随机样本数据吗?
import numpy as np
import pandas as pd
import datetime as dt
from pylab import mpl, plt
plt.style.use('seaborn')
mpl.rcParams['font.family'] = 'serif'
np.random.seed(1000)
from sklearn.datasets.samples_generator import make_blobs
X, y = make_blobs(n_samples=250, centers=4, random_state=500, cluster_std=1.25)
plt.figure(figsize=(10,6))
plt.scatter(X[:,0], X[:,1], s=50);
假设你想做一个one-dimensional集群,你可以这样做:
someDF = pd.read_csv("myFile.csv")
print(someDF.columns)
columnsOfInterest = ['Austria', 'Norway', 'Belgium', 'Sweden', 'Spain']
plt.figure(figsize=(10,6))
for c in columnsOfInterest:
plt.scatter(someDF[c], someDF[c])
plt.show()
如果你想做二维聚类(这是更典型的)你可以这样做:
someDF = pd.read_csv("myFile.csv")
print(someDF.columns)
columnsOfInterest = ['Austria', 'Norway', 'Belgium', 'Sweden', 'Spain']
secondColumn = 'OtherColumn'
plt.figure(figsize=(10,6))
for c in columnsOfInterest:
plt.scatter(someDF[c], someDF[secondColumn])
plt.show()
我有一个 csv,我将它作为 panda 导入到我的 juypter 笔记本中。 熊猫有 12 列,一个“时间戳”,然后是 11 列不同国家的数据。
我想做的是将它们可视化为一个集群。我找到了以下代码来创建一个基本集群。但是我已经苦苦挣扎了一段时间,要对我的数据做与下面完全相同的事情。有人知道我必须更改什么才能用我的熊猫数据替换随机样本数据吗?
import numpy as np
import pandas as pd
import datetime as dt
from pylab import mpl, plt
plt.style.use('seaborn')
mpl.rcParams['font.family'] = 'serif'
np.random.seed(1000)
from sklearn.datasets.samples_generator import make_blobs
X, y = make_blobs(n_samples=250, centers=4, random_state=500, cluster_std=1.25)
plt.figure(figsize=(10,6))
plt.scatter(X[:,0], X[:,1], s=50);
假设你想做一个one-dimensional集群,你可以这样做:
someDF = pd.read_csv("myFile.csv")
print(someDF.columns)
columnsOfInterest = ['Austria', 'Norway', 'Belgium', 'Sweden', 'Spain']
plt.figure(figsize=(10,6))
for c in columnsOfInterest:
plt.scatter(someDF[c], someDF[c])
plt.show()
如果你想做二维聚类(这是更典型的)你可以这样做:
someDF = pd.read_csv("myFile.csv")
print(someDF.columns)
columnsOfInterest = ['Austria', 'Norway', 'Belgium', 'Sweden', 'Spain']
secondColumn = 'OtherColumn'
plt.figure(figsize=(10,6))
for c in columnsOfInterest:
plt.scatter(someDF[c], someDF[secondColumn])
plt.show()