计算一列值之间的相关性

Question

我有一个巨大的数据框，如下所示：

gemeente    Partij  Perioden    Bevolking/Bevolkingssamenstelling op 1 januari/Totale bevolking (aantal)    Bevolking/Bevolkingssamenstelling op 1 januari/Geslacht/Mannen (aantal) Bevolking/Bevolkingssamenstelling op 1 januari/Geslacht/Vrouwen (aantal)    Bevolking/Bevolkingssamenstelling op 1 januari/Leeftijd/Leeftijdsgroepen/Jonger dan 5 jaar (aantal) Bevolking/Bevolkingssamenstelling op 1 januari/Leeftijd/Leeftijdsgroepen/5 tot 10 jaar (aantal) Bevolking/Bevolkingssamenstelling op 1 januari/Leeftijd/Leeftijdsgroepen/10 tot 15 jaar (aantal)    Bevolking/Bevolkingssamenstelling op 1 januari/Leeftijd/Leeftijdsgroepen/15 tot 20 jaar (aantal)
0   's-Hertogenbosch    VVD 2007    135648.0    66669.0 68979.0 7986.0  7809.0  7514.0  7612.0  ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
1   's-Hertogenbosch    VVD 2008    136481.0    67047.0 69434.0 7885.0  7853.0  7517.0  7680.0  ... 5.8 8.6 41.3    5.2 4.0 20.0    4.0 5.0 25.0    3.0
2   's-Hertogenbosch    VVD 2009    137775.0    67715.0 70060.0 7915.0  7890.0  7497.0  7628.0  ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
3   's-Hertogenbosch    VVD 2010    139607.0    68628.0 70979.0 8127.0  7852.0  7527.0  7752.0  ... 5.6 8.4 40.7    5.4 4.0 20.0    3.0 5.0 24.0    3.0
4   Aa en Hunze PVDA    2007    25563.0 12653.0 12910.0

Partij 包含 6 个可能的标签，我有 270 列。我想计算 Partij 中这 6 个标签与来自那 270 列的数据之间的相关 and/or 相似度。

我试过 pd.groupby 但这只能给我列之间的相关性，而不是各方之间的相关性。

我尝试创建一个 pd.pivot_table，但将 Partij 作为列名，但我仍然拥有所有这些正常的列名，无法访问 Partij 名称和计算相关性。

Answer 1

您可以使用 pandas' DataFrame:

的转置方法使 Partij 值显示为列

df = df.transpose()

计算一列值之间的相关性

computing correlation between values of one column

python

correlation

pandas