如何旋转数据框?
How can I pivot a dataframe?
- 什么是枢轴?
- 我如何旋转?
- 这是一个支点吗?
- 长格式到宽格式?
我看到很多关于数据透视表的问题。即使他们不知道他们在询问数据透视表,他们通常也是。几乎不可能写出涵盖旋转所有方面的规范问答...
...但我要试一试。
现有问题和答案的问题在于,问题通常集中在 OP 难以概括的细微差别上,以便使用许多现有的好的答案。但是,none 的答案试图给出全面的解释(因为这是一项艰巨的任务)
看我的几个例子Google Search
- 很好的问答。但答案只回答了具体问题,解释不多。
- 在这个问题中,OP 关注的是枢轴的输出。即列的外观。 OP 希望它看起来像 R。这对 pandas 用户不是很有帮助。
- pandas pivoting a dataframe, duplicate rows
- 另一个不错的问题,但答案集中在一种方法上,即
pd.DataFrame.pivot
因此,每当有人搜索 pivot
时,他们会得到零星的结果,这些结果可能不会回答他们的特定问题。
设置
您可能会注意到我明显地命名了我的列和相关的列值,以与我将如何在下面的答案中进行调整相对应。
import numpy as np
import pandas as pd
from numpy.core.defchararray import add
np.random.seed([3,1415])
n = 20
cols = np.array(['key', 'row', 'item', 'col'])
arr1 = (np.random.randint(5, size=(n, 4)) // [2, 1, 2, 1]).astype(str)
df = pd.DataFrame(
add(cols, arr1), columns=cols
).join(
pd.DataFrame(np.random.rand(n, 2).round(2)).add_prefix('val')
)
print(df)
key row item col val0 val1
0 key0 row3 item1 col3 0.81 0.04
1 key1 row2 item1 col2 0.44 0.07
2 key1 row0 item1 col0 0.77 0.01
3 key0 row4 item0 col2 0.15 0.59
4 key1 row0 item2 col1 0.81 0.64
5 key1 row2 item2 col4 0.13 0.88
6 key2 row4 item1 col3 0.88 0.39
7 key1 row4 item1 col1 0.10 0.07
8 key1 row0 item2 col4 0.65 0.02
9 key1 row2 item0 col2 0.35 0.61
10 key2 row0 item2 col1 0.40 0.85
11 key2 row4 item1 col2 0.64 0.25
12 key0 row2 item2 col3 0.50 0.44
13 key0 row4 item1 col4 0.24 0.46
14 key1 row3 item2 col3 0.28 0.11
15 key0 row3 item1 col1 0.31 0.23
16 key0 row0 item2 col3 0.86 0.01
17 key0 row4 item0 col3 0.64 0.21
18 key2 row2 item2 col0 0.13 0.45
19 key0 row2 item0 col4 0.37 0.70
问题
为什么我得到ValueError: Index contains duplicate entries, cannot reshape
如何旋转 df
,使 col
值是列,row
值是索引,val0
的平均值是价值观?
col col0 col1 col2 col3 col4
row
row0 0.77 0.605 NaN 0.860 0.65
row2 0.13 NaN 0.395 0.500 0.25
row3 NaN 0.310 NaN 0.545 NaN
row4 NaN 0.100 0.395 0.760 0.24
如何旋转 df
使得 col
值是列,row
值是索引,val0
的平均值是值,缺失值为 0
?
col col0 col1 col2 col3 col4
row
row0 0.77 0.605 0.000 0.860 0.65
row2 0.13 0.000 0.395 0.500 0.25
row3 0.00 0.310 0.000 0.545 0.00
row4 0.00 0.100 0.395 0.760 0.24
我可以得到 mean
以外的东西吗,比如 sum
?
col col0 col1 col2 col3 col4
row
row0 0.77 1.21 0.00 0.86 0.65
row2 0.13 0.00 0.79 0.50 0.50
row3 0.00 0.31 0.00 1.09 0.00
row4 0.00 0.10 0.79 1.52 0.24
我可以一次做更多的聚合吗?
sum mean
col col0 col1 col2 col3 col4 col0 col1 col2 col3 col4
row
row0 0.77 1.21 0.00 0.86 0.65 0.77 0.605 0.000 0.860 0.65
row2 0.13 0.00 0.79 0.50 0.50 0.13 0.000 0.395 0.500 0.25
row3 0.00 0.31 0.00 1.09 0.00 0.00 0.310 0.000 0.545 0.00
row4 0.00 0.10 0.79 1.52 0.24 0.00 0.100 0.395 0.760 0.24
我可以聚合多个值列吗?
val0 val1
col col0 col1 col2 col3 col4 col0 col1 col2 col3 col4
row
row0 0.77 0.605 0.000 0.860 0.65 0.01 0.745 0.00 0.010 0.02
row2 0.13 0.000 0.395 0.500 0.25 0.45 0.000 0.34 0.440 0.79
row3 0.00 0.310 0.000 0.545 0.00 0.00 0.230 0.00 0.075 0.00
row4 0.00 0.100 0.395 0.760 0.24 0.00 0.070 0.42 0.300 0.46
可以按多列细分吗?
item item0 item1 item2
col col2 col3 col4 col0 col1 col2 col3 col4 col0 col1 col3 col4
row
row0 0.00 0.00 0.00 0.77 0.00 0.00 0.00 0.00 0.00 0.605 0.86 0.65
row2 0.35 0.00 0.37 0.00 0.00 0.44 0.00 0.00 0.13 0.000 0.50 0.13
row3 0.00 0.00 0.00 0.00 0.31 0.00 0.81 0.00 0.00 0.000 0.28 0.00
row4 0.15 0.64 0.00 0.00 0.10 0.64 0.88 0.24 0.00 0.000 0.00 0.00
或
item item0 item1 item2
col col2 col3 col4 col0 col1 col2 col3 col4 col0 col1 col3 col4
key row
key0 row0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.86 0.00
row2 0.00 0.00 0.37 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.50 0.00
row3 0.00 0.00 0.00 0.00 0.31 0.00 0.81 0.00 0.00 0.00 0.00 0.00
row4 0.15 0.64 0.00 0.00 0.00 0.00 0.00 0.24 0.00 0.00 0.00 0.00
key1 row0 0.00 0.00 0.00 0.77 0.00 0.00 0.00 0.00 0.00 0.81 0.00 0.65
row2 0.35 0.00 0.00 0.00 0.00 0.44 0.00 0.00 0.00 0.00 0.00 0.13
row3 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.28 0.00
row4 0.00 0.00 0.00 0.00 0.10 0.00 0.00 0.00 0.00 0.00 0.00 0.00
key2 row0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.40 0.00 0.00
row2 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.13 0.00 0.00 0.00
row4 0.00 0.00 0.00 0.00 0.00 0.64 0.88 0.00 0.00 0.00 0.00 0.00
我可以聚合列和行一起出现的频率,即“交叉制表”吗?
col col0 col1 col2 col3 col4
row
row0 1 2 0 1 1
row2 1 0 2 1 2
row3 0 1 0 2 0
row4 0 1 2 2 1
如何通过仅在两列上旋转来将 DataFrame 从长转换为宽?鉴于,
np.random.seed([3, 1415])
df2 = pd.DataFrame({'A': list('aaaabbbc'), 'B': np.random.choice(15, 8)})
df2
A B
0 a 0
1 a 11
2 a 2
3 a 11
4 b 10
5 b 10
6 b 14
7 c 7
预期应该类似于
a b c
0 0.0 10.0 7.0
1 11.0 10.0 NaN
2 2.0 14.0 NaN
3 11.0 NaN NaN
如何在 pivot
之后将多个索引展平为单个索引?
来自
1 2
1 1 2
a 2 1 1
b 2 1 0
c 1 0 0
到
1|1 2|1 2|2
a 2 1 1
b 2 1 0
c 1 0 0
我们首先回答第一个问题:
问题 1
Why do I get ValueError: Index contains duplicate entries, cannot reshape
发生这种情况是因为 pandas 试图重新索引具有重复条目的 columns
或 index
对象。有多种方法可以执行枢轴。当有重复的键被要求以其为中心时,它们中的一些不太适合。例如。考虑 pd.DataFrame.pivot
。我知道有重复条目共享 row
和 col
值:
df.duplicated(['row', 'col']).any()
True
所以当我pivot
使用
df.pivot(index='row', columns='col', values='val0')
我收到上面提到的错误。事实上,当我尝试执行相同的任务时,我得到了同样的错误:
df.set_index(['row', 'col'])['val0'].unstack()
这是我们可以用来转换的成语列表
pd.DataFrame.groupby
+ pd.DataFrame.unstack
- 执行几乎任何类型的枢轴的良好通用方法
- 您指定将构成一个分组依据的透视行级别和列级别的所有列。您可以通过 selecting 您想要聚合的剩余列和您想要执行聚合的函数来遵循它。最后,您
unstack
您想要在列索引中的级别。
-
groupby
的美化版本,更直观 API。对于许多人来说,这是首选方法。并且是开发人员的预期方法。
- 指定行级别、列级别、要聚合的值和执行聚合的函数。
pd.DataFrame.set_index
+ pd.DataFrame.unstack
- 对某些人(包括我自己)来说方便直观。无法处理重复的分组键。
- 与
groupby
范例类似,我们指定最终将成为行或列级别的所有列,并将它们设置为索引。然后我们 unstack
列中我们想要的级别。如果剩余的索引级别或列级别不唯一,则此方法将失败。
-
- 与
set_index
非常相似,因为它共享重复键限制。 API 也非常有限。它只需要 index
、columns
、values
. 的标量值
- 与
pivot_table
方法类似,我们 select 行、列和值作为轴心值。但是,我们无法聚合,如果行或列不唯一,此方法将失败。
-
- 这是
pivot_table
的特殊版本,其最纯粹的形式是执行多项任务的最直观方式。
-
- 这是一种非常先进的技术,非常隐蔽但速度非常快。它不能在所有情况下使用,但是当它可以使用并且您使用起来很舒服时,您将获得性能回报。
pd.get_dummies
+ pd.DataFrame.dot
- 我用它来巧妙地进行交叉制表。
例子
对于后续的每个答案和问题,我要做的是使用 pd.DataFrame.pivot_table
来回答它。然后我将提供替代方案来执行相同的任务。
问题 3
How do I pivot df
such that the col
values are columns, row
values are the index, mean of val0
are the values, and missing values are 0
?
-
默认情况下未设置 fill_value
。我倾向于适当地设置它。在这种情况下,我将其设置为 0
。请注意,我跳过了 问题 2,因为它与没有 fill_value
的答案相同
aggfunc='mean'
是默认值,我不必设置它。我把它包括在内是为了明确。
df.pivot_table(
values='val0', index='row', columns='col',
fill_value=0, aggfunc='mean')
col col0 col1 col2 col3 col4
row
row0 0.77 0.605 0.000 0.860 0.65
row2 0.13 0.000 0.395 0.500 0.25
row3 0.00 0.310 0.000 0.545 0.00
row4 0.00 0.100 0.395 0.760 0.24
-
df.groupby(['row', 'col'])['val0'].mean().unstack(fill_value=0)
-
pd.crosstab(
index=df['row'], columns=df['col'],
values=df['val0'], aggfunc='mean').fillna(0)
问题 4
Can I get something other than mean
, like maybe sum
?
-
df.pivot_table(
values='val0', index='row', columns='col',
fill_value=0, aggfunc='sum')
col col0 col1 col2 col3 col4
row
row0 0.77 1.21 0.00 0.86 0.65
row2 0.13 0.00 0.79 0.50 0.50
row3 0.00 0.31 0.00 1.09 0.00
row4 0.00 0.10 0.79 1.52 0.24
-
df.groupby(['row', 'col'])['val0'].sum().unstack(fill_value=0)
-
pd.crosstab(
index=df['row'], columns=df['col'],
values=df['val0'], aggfunc='sum').fillna(0)
问题 5
Can I do more that one aggregation at a time?
请注意,对于 pivot_table
和 crosstab
,我需要传递可调用列表。另一方面,groupby.agg
能够为有限数量的特殊函数获取字符串。 groupby.agg
也会采用我们传递给其他人的相同可调用对象,但利用字符串函数名称通常更有效,因为可以提高效率。
-
df.pivot_table(
values='val0', index='row', columns='col',
fill_value=0, aggfunc=[np.size, np.mean])
size mean
col col0 col1 col2 col3 col4 col0 col1 col2 col3 col4
row
row0 1 2 0 1 1 0.77 0.605 0.000 0.860 0.65
row2 1 0 2 1 2 0.13 0.000 0.395 0.500 0.25
row3 0 1 0 2 0 0.00 0.310 0.000 0.545 0.00
row4 0 1 2 2 1 0.00 0.100 0.395 0.760 0.24
-
df.groupby(['row', 'col'])['val0'].agg(['size', 'mean']).unstack(fill_value=0)
-
pd.crosstab(
index=df['row'], columns=df['col'],
values=df['val0'], aggfunc=[np.size, np.mean]).fillna(0, downcast='infer')
问题 6
Can I aggregate over multiple value columns?
pd.DataFrame.pivot_table
我们通过了 values=['val0', 'val1']
但我们本可以完全忽略它
df.pivot_table(
values=['val0', 'val1'], index='row', columns='col',
fill_value=0, aggfunc='mean')
val0 val1
col col0 col1 col2 col3 col4 col0 col1 col2 col3 col4
row
row0 0.77 0.605 0.000 0.860 0.65 0.01 0.745 0.00 0.010 0.02
row2 0.13 0.000 0.395 0.500 0.25 0.45 0.000 0.34 0.440 0.79
row3 0.00 0.310 0.000 0.545 0.00 0.00 0.230 0.00 0.075 0.00
row4 0.00 0.100 0.395 0.760 0.24 0.00 0.070 0.42 0.300 0.46
-
df.groupby(['row', 'col'])['val0', 'val1'].mean().unstack(fill_value=0)
问题 7
Can Subdivide by multiple columns?
-
df.pivot_table(
values='val0', index='row', columns=['item', 'col'],
fill_value=0, aggfunc='mean')
item item0 item1 item2
col col2 col3 col4 col0 col1 col2 col3 col4 col0 col1 col3 col4
row
row0 0.00 0.00 0.00 0.77 0.00 0.00 0.00 0.00 0.00 0.605 0.86 0.65
row2 0.35 0.00 0.37 0.00 0.00 0.44 0.00 0.00 0.13 0.000 0.50 0.13
row3 0.00 0.00 0.00 0.00 0.31 0.00 0.81 0.00 0.00 0.000 0.28 0.00
row4 0.15 0.64 0.00 0.00 0.10 0.64 0.88 0.24 0.00 0.000 0.00 0.00
-
df.groupby(
['row', 'item', 'col']
)['val0'].mean().unstack(['item', 'col']).fillna(0).sort_index(1)
问题 8
Can Subdivide by multiple columns?
-
df.pivot_table(
values='val0', index=['key', 'row'], columns=['item', 'col'],
fill_value=0, aggfunc='mean')
item item0 item1 item2
col col2 col3 col4 col0 col1 col2 col3 col4 col0 col1 col3 col4
key row
key0 row0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.86 0.00
row2 0.00 0.00 0.37 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.50 0.00
row3 0.00 0.00 0.00 0.00 0.31 0.00 0.81 0.00 0.00 0.00 0.00 0.00
row4 0.15 0.64 0.00 0.00 0.00 0.00 0.00 0.24 0.00 0.00 0.00 0.00
key1 row0 0.00 0.00 0.00 0.77 0.00 0.00 0.00 0.00 0.00 0.81 0.00 0.65
row2 0.35 0.00 0.00 0.00 0.00 0.44 0.00 0.00 0.00 0.00 0.00 0.13
row3 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.28 0.00
row4 0.00 0.00 0.00 0.00 0.10 0.00 0.00 0.00 0.00 0.00 0.00 0.00
key2 row0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.40 0.00 0.00
row2 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.13 0.00 0.00 0.00
row4 0.00 0.00 0.00 0.00 0.00 0.64 0.88 0.00 0.00 0.00 0.00 0.00
-
df.groupby(
['key', 'row', 'item', 'col']
)['val0'].mean().unstack(['item', 'col']).fillna(0).sort_index(1)
pd.DataFrame.set_index
因为键集对于行和列都是唯一的
df.set_index(
['key', 'row', 'item', 'col']
)['val0'].unstack(['item', 'col']).fillna(0).sort_index(1)
问题 9
Can I aggregate the frequency in which the column and rows occur together, aka "cross tabulation"?
-
df.pivot_table(index='row', columns='col', fill_value=0, aggfunc='size')
col col0 col1 col2 col3 col4
row
row0 1 2 0 1 1
row2 1 0 2 1 2
row3 0 1 0 2 0
row4 0 1 2 2 1
-
df.groupby(['row', 'col'])['val0'].size().unstack(fill_value=0)
-
pd.crosstab(df['row'], df['col'])
-
# get integer factorization `i` and unique values `r`
# for column `'row'`
i, r = pd.factorize(df['row'].values)
# get integer factorization `j` and unique values `c`
# for column `'col'`
j, c = pd.factorize(df['col'].values)
# `n` will be the number of rows
# `m` will be the number of columns
n, m = r.size, c.size
# `i * m + j` is a clever way of counting the
# factorization bins assuming a flat array of length
# `n * m`. Which is why we subsequently reshape as `(n, m)`
b = np.bincount(i * m + j, minlength=n * m).reshape(n, m)
# BTW, whenever I read this, I think 'Bean, Rice, and Cheese'
pd.DataFrame(b, r, c)
col3 col2 col0 col1 col4
row3 2 0 0 1 0
row2 1 2 1 0 2
row0 1 0 1 2 1
row4 2 2 0 1 1
-
pd.get_dummies(df['row']).T.dot(pd.get_dummies(df['col']))
col0 col1 col2 col3 col4
row0 1 2 0 1 1
row2 1 0 2 1 2
row3 0 1 0 2 0
row4 0 1 2 2 1
问题 10
How do I convert a DataFrame from long to wide by pivoting on ONLY two
columns?
-
第一步是为每一行分配一个数字 - 这个数字将是旋转结果中该值的行索引。这是使用 GroupBy.cumcount
:
完成的
df2.insert(0, 'count', df2.groupby('A').cumcount())
df2
count A B
0 0 a 0
1 1 a 11
2 2 a 2
3 3 a 11
4 0 b 10
5 1 b 10
6 2 b 14
7 0 c 7
第二步以新建的列为索引调用DataFrame.pivot
.
df2.pivot(*df2)
# df2.pivot(index='count', columns='A', values='B')
A a b c
count
0 0.0 10.0 7.0
1 11.0 10.0 NaN
2 2.0 14.0 NaN
3 11.0 NaN NaN
-
而 DataFrame.pivot
只接受列,DataFrame.pivot_table
也接受数组,因此 GroupBy.cumcount
可以直接作为 index
传递,而无需创建显式列。
df2.pivot_table(index=df2.groupby('A').cumcount(), columns='A', values='B')
A a b c
0 0.0 10.0 7.0
1 11.0 10.0 NaN
2 2.0 14.0 NaN
3 11.0 NaN NaN
问题 11
How do I flatten the multiple index to single index after pivot
如果 columns
键入 object
和字符串 join
df.columns = df.columns.map('|'.join)
其他format
df.columns = df.columns.map('{0[0]}|{0[1]}'.format)
延长 another version of Question 10
问题 10.1
数据帧:
d = data = {'A': {0: 1, 1: 1, 2: 1, 3: 2, 4: 2, 5: 3, 6: 5},
'B': {0: 'a', 1: 'b', 2: 'c', 3: 'a', 4: 'b', 5: 'a', 6: 'c'}}
df = pd.DataFrame(d)
A B
0 1 a
1 1 b
2 1 c
3 2 a
4 2 b
5 3 a
6 5 c
输出:
0 1 2
A
1 a b c
2 a b None
3 a None None
5 c None None
使用df.groupby
and pd.Series.tolist
t = df.groupby('A')['B'].apply(list)
out = pd.DataFrame(t.tolist(),index=t.index)
out
0 1 2
A
1 a b c
2 a b None
3 a None None
5 c None None
或者
使用 pd.pivot_table
with df.squeeze.
的更好选择
t = df.pivot_table(index='A',values='B',aggfunc=list).squeeze()
out = pd.DataFrame(t.tolist(),index=t.index)
为了更好地理解 Pandas 文档中的 pivot works you can look at the example:
df = pd.DataFrame({
'foo': ['one', 'one', 'one', 'two', 'two', 'two'],
'bar': ['A', 'B', 'C', 'A', 'B', 'C'],
'baz': [1, 2, 3, 4, 5, 6],
'zoo': ['x', 'y', 'z', 'q', 'w', 't']
})
输入Table:
foo bar baz zoo
0 one A 1 x
1 one B 2 y
2 one C 3 z
3 two A 4 q
4 two B 5 w
5 two C 6 t
枢轴:
pd.pivot(
data=df,
index='foo', # Column to use to make new frame’s index. If None, uses existing index.
columns='bar', # Column to use to make new frame’s columns.
values='baz' # Column(s) to use for populating new frame’s values.
)
输出table:
bar A B C
foo
one 1 2 3
two 4 5 6
- 什么是枢轴?
- 我如何旋转?
- 这是一个支点吗?
- 长格式到宽格式?
我看到很多关于数据透视表的问题。即使他们不知道他们在询问数据透视表,他们通常也是。几乎不可能写出涵盖旋转所有方面的规范问答...
...但我要试一试。
现有问题和答案的问题在于,问题通常集中在 OP 难以概括的细微差别上,以便使用许多现有的好的答案。但是,none 的答案试图给出全面的解释(因为这是一项艰巨的任务)
看我的几个例子Google Search
- 很好的问答。但答案只回答了具体问题,解释不多。
- 在这个问题中,OP 关注的是枢轴的输出。即列的外观。 OP 希望它看起来像 R。这对 pandas 用户不是很有帮助。
- pandas pivoting a dataframe, duplicate rows
- 另一个不错的问题,但答案集中在一种方法上,即
pd.DataFrame.pivot
因此,每当有人搜索 pivot
时,他们会得到零星的结果,这些结果可能不会回答他们的特定问题。
设置
您可能会注意到我明显地命名了我的列和相关的列值,以与我将如何在下面的答案中进行调整相对应。
import numpy as np
import pandas as pd
from numpy.core.defchararray import add
np.random.seed([3,1415])
n = 20
cols = np.array(['key', 'row', 'item', 'col'])
arr1 = (np.random.randint(5, size=(n, 4)) // [2, 1, 2, 1]).astype(str)
df = pd.DataFrame(
add(cols, arr1), columns=cols
).join(
pd.DataFrame(np.random.rand(n, 2).round(2)).add_prefix('val')
)
print(df)
key row item col val0 val1
0 key0 row3 item1 col3 0.81 0.04
1 key1 row2 item1 col2 0.44 0.07
2 key1 row0 item1 col0 0.77 0.01
3 key0 row4 item0 col2 0.15 0.59
4 key1 row0 item2 col1 0.81 0.64
5 key1 row2 item2 col4 0.13 0.88
6 key2 row4 item1 col3 0.88 0.39
7 key1 row4 item1 col1 0.10 0.07
8 key1 row0 item2 col4 0.65 0.02
9 key1 row2 item0 col2 0.35 0.61
10 key2 row0 item2 col1 0.40 0.85
11 key2 row4 item1 col2 0.64 0.25
12 key0 row2 item2 col3 0.50 0.44
13 key0 row4 item1 col4 0.24 0.46
14 key1 row3 item2 col3 0.28 0.11
15 key0 row3 item1 col1 0.31 0.23
16 key0 row0 item2 col3 0.86 0.01
17 key0 row4 item0 col3 0.64 0.21
18 key2 row2 item2 col0 0.13 0.45
19 key0 row2 item0 col4 0.37 0.70
问题
为什么我得到
ValueError: Index contains duplicate entries, cannot reshape
如何旋转
df
,使col
值是列,row
值是索引,val0
的平均值是价值观?col col0 col1 col2 col3 col4 row row0 0.77 0.605 NaN 0.860 0.65 row2 0.13 NaN 0.395 0.500 0.25 row3 NaN 0.310 NaN 0.545 NaN row4 NaN 0.100 0.395 0.760 0.24
如何旋转
df
使得col
值是列,row
值是索引,val0
的平均值是值,缺失值为0
?col col0 col1 col2 col3 col4 row row0 0.77 0.605 0.000 0.860 0.65 row2 0.13 0.000 0.395 0.500 0.25 row3 0.00 0.310 0.000 0.545 0.00 row4 0.00 0.100 0.395 0.760 0.24
我可以得到
mean
以外的东西吗,比如sum
?col col0 col1 col2 col3 col4 row row0 0.77 1.21 0.00 0.86 0.65 row2 0.13 0.00 0.79 0.50 0.50 row3 0.00 0.31 0.00 1.09 0.00 row4 0.00 0.10 0.79 1.52 0.24
我可以一次做更多的聚合吗?
sum mean col col0 col1 col2 col3 col4 col0 col1 col2 col3 col4 row row0 0.77 1.21 0.00 0.86 0.65 0.77 0.605 0.000 0.860 0.65 row2 0.13 0.00 0.79 0.50 0.50 0.13 0.000 0.395 0.500 0.25 row3 0.00 0.31 0.00 1.09 0.00 0.00 0.310 0.000 0.545 0.00 row4 0.00 0.10 0.79 1.52 0.24 0.00 0.100 0.395 0.760 0.24
我可以聚合多个值列吗?
val0 val1 col col0 col1 col2 col3 col4 col0 col1 col2 col3 col4 row row0 0.77 0.605 0.000 0.860 0.65 0.01 0.745 0.00 0.010 0.02 row2 0.13 0.000 0.395 0.500 0.25 0.45 0.000 0.34 0.440 0.79 row3 0.00 0.310 0.000 0.545 0.00 0.00 0.230 0.00 0.075 0.00 row4 0.00 0.100 0.395 0.760 0.24 0.00 0.070 0.42 0.300 0.46
可以按多列细分吗?
item item0 item1 item2 col col2 col3 col4 col0 col1 col2 col3 col4 col0 col1 col3 col4 row row0 0.00 0.00 0.00 0.77 0.00 0.00 0.00 0.00 0.00 0.605 0.86 0.65 row2 0.35 0.00 0.37 0.00 0.00 0.44 0.00 0.00 0.13 0.000 0.50 0.13 row3 0.00 0.00 0.00 0.00 0.31 0.00 0.81 0.00 0.00 0.000 0.28 0.00 row4 0.15 0.64 0.00 0.00 0.10 0.64 0.88 0.24 0.00 0.000 0.00 0.00
或
item item0 item1 item2 col col2 col3 col4 col0 col1 col2 col3 col4 col0 col1 col3 col4 key row key0 row0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.86 0.00 row2 0.00 0.00 0.37 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.50 0.00 row3 0.00 0.00 0.00 0.00 0.31 0.00 0.81 0.00 0.00 0.00 0.00 0.00 row4 0.15 0.64 0.00 0.00 0.00 0.00 0.00 0.24 0.00 0.00 0.00 0.00 key1 row0 0.00 0.00 0.00 0.77 0.00 0.00 0.00 0.00 0.00 0.81 0.00 0.65 row2 0.35 0.00 0.00 0.00 0.00 0.44 0.00 0.00 0.00 0.00 0.00 0.13 row3 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.28 0.00 row4 0.00 0.00 0.00 0.00 0.10 0.00 0.00 0.00 0.00 0.00 0.00 0.00 key2 row0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.40 0.00 0.00 row2 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.13 0.00 0.00 0.00 row4 0.00 0.00 0.00 0.00 0.00 0.64 0.88 0.00 0.00 0.00 0.00 0.00
我可以聚合列和行一起出现的频率,即“交叉制表”吗?
col col0 col1 col2 col3 col4 row row0 1 2 0 1 1 row2 1 0 2 1 2 row3 0 1 0 2 0 row4 0 1 2 2 1
如何通过仅在两列上旋转来将 DataFrame 从长转换为宽?鉴于,
np.random.seed([3, 1415]) df2 = pd.DataFrame({'A': list('aaaabbbc'), 'B': np.random.choice(15, 8)}) df2 A B 0 a 0 1 a 11 2 a 2 3 a 11 4 b 10 5 b 10 6 b 14 7 c 7
预期应该类似于
a b c 0 0.0 10.0 7.0 1 11.0 10.0 NaN 2 2.0 14.0 NaN 3 11.0 NaN NaN
如何在
pivot
之后将多个索引展平为单个索引?来自
1 2 1 1 2 a 2 1 1 b 2 1 0 c 1 0 0
到
1|1 2|1 2|2 a 2 1 1 b 2 1 0 c 1 0 0
我们首先回答第一个问题:
问题 1
Why do I get
ValueError: Index contains duplicate entries, cannot reshape
发生这种情况是因为 pandas 试图重新索引具有重复条目的 columns
或 index
对象。有多种方法可以执行枢轴。当有重复的键被要求以其为中心时,它们中的一些不太适合。例如。考虑 pd.DataFrame.pivot
。我知道有重复条目共享 row
和 col
值:
df.duplicated(['row', 'col']).any()
True
所以当我pivot
使用
df.pivot(index='row', columns='col', values='val0')
我收到上面提到的错误。事实上,当我尝试执行相同的任务时,我得到了同样的错误:
df.set_index(['row', 'col'])['val0'].unstack()
这是我们可以用来转换的成语列表
pd.DataFrame.groupby
+pd.DataFrame.unstack
- 执行几乎任何类型的枢轴的良好通用方法
- 您指定将构成一个分组依据的透视行级别和列级别的所有列。您可以通过 selecting 您想要聚合的剩余列和您想要执行聚合的函数来遵循它。最后,您
unstack
您想要在列索引中的级别。
-
groupby
的美化版本,更直观 API。对于许多人来说,这是首选方法。并且是开发人员的预期方法。- 指定行级别、列级别、要聚合的值和执行聚合的函数。
pd.DataFrame.set_index
+pd.DataFrame.unstack
- 对某些人(包括我自己)来说方便直观。无法处理重复的分组键。
- 与
groupby
范例类似,我们指定最终将成为行或列级别的所有列,并将它们设置为索引。然后我们unstack
列中我们想要的级别。如果剩余的索引级别或列级别不唯一,则此方法将失败。
-
- 与
set_index
非常相似,因为它共享重复键限制。 API 也非常有限。它只需要index
、columns
、values
. 的标量值
- 与
pivot_table
方法类似,我们 select 行、列和值作为轴心值。但是,我们无法聚合,如果行或列不唯一,此方法将失败。
- 与
-
- 这是
pivot_table
的特殊版本,其最纯粹的形式是执行多项任务的最直观方式。
- 这是
-
- 这是一种非常先进的技术,非常隐蔽但速度非常快。它不能在所有情况下使用,但是当它可以使用并且您使用起来很舒服时,您将获得性能回报。
pd.get_dummies
+pd.DataFrame.dot
- 我用它来巧妙地进行交叉制表。
例子
对于后续的每个答案和问题,我要做的是使用 pd.DataFrame.pivot_table
来回答它。然后我将提供替代方案来执行相同的任务。
问题 3
How do I pivot
df
such that thecol
values are columns,row
values are the index, mean ofval0
are the values, and missing values are0
?
-
-
默认情况下未设置
的答案相同fill_value
。我倾向于适当地设置它。在这种情况下,我将其设置为0
。请注意,我跳过了 问题 2,因为它与没有fill_value
aggfunc='mean'
是默认值,我不必设置它。我把它包括在内是为了明确。df.pivot_table( values='val0', index='row', columns='col', fill_value=0, aggfunc='mean') col col0 col1 col2 col3 col4 row row0 0.77 0.605 0.000 0.860 0.65 row2 0.13 0.000 0.395 0.500 0.25 row3 0.00 0.310 0.000 0.545 0.00 row4 0.00 0.100 0.395 0.760 0.24
-
df.groupby(['row', 'col'])['val0'].mean().unstack(fill_value=0)
-
pd.crosstab( index=df['row'], columns=df['col'], values=df['val0'], aggfunc='mean').fillna(0)
问题 4
Can I get something other than
mean
, like maybesum
?
-
df.pivot_table( values='val0', index='row', columns='col', fill_value=0, aggfunc='sum') col col0 col1 col2 col3 col4 row row0 0.77 1.21 0.00 0.86 0.65 row2 0.13 0.00 0.79 0.50 0.50 row3 0.00 0.31 0.00 1.09 0.00 row4 0.00 0.10 0.79 1.52 0.24
-
df.groupby(['row', 'col'])['val0'].sum().unstack(fill_value=0)
-
pd.crosstab( index=df['row'], columns=df['col'], values=df['val0'], aggfunc='sum').fillna(0)
问题 5
Can I do more that one aggregation at a time?
请注意,对于 pivot_table
和 crosstab
,我需要传递可调用列表。另一方面,groupby.agg
能够为有限数量的特殊函数获取字符串。 groupby.agg
也会采用我们传递给其他人的相同可调用对象,但利用字符串函数名称通常更有效,因为可以提高效率。
-
df.pivot_table( values='val0', index='row', columns='col', fill_value=0, aggfunc=[np.size, np.mean]) size mean col col0 col1 col2 col3 col4 col0 col1 col2 col3 col4 row row0 1 2 0 1 1 0.77 0.605 0.000 0.860 0.65 row2 1 0 2 1 2 0.13 0.000 0.395 0.500 0.25 row3 0 1 0 2 0 0.00 0.310 0.000 0.545 0.00 row4 0 1 2 2 1 0.00 0.100 0.395 0.760 0.24
-
df.groupby(['row', 'col'])['val0'].agg(['size', 'mean']).unstack(fill_value=0)
-
pd.crosstab( index=df['row'], columns=df['col'], values=df['val0'], aggfunc=[np.size, np.mean]).fillna(0, downcast='infer')
问题 6
Can I aggregate over multiple value columns?
pd.DataFrame.pivot_table
我们通过了values=['val0', 'val1']
但我们本可以完全忽略它df.pivot_table( values=['val0', 'val1'], index='row', columns='col', fill_value=0, aggfunc='mean') val0 val1 col col0 col1 col2 col3 col4 col0 col1 col2 col3 col4 row row0 0.77 0.605 0.000 0.860 0.65 0.01 0.745 0.00 0.010 0.02 row2 0.13 0.000 0.395 0.500 0.25 0.45 0.000 0.34 0.440 0.79 row3 0.00 0.310 0.000 0.545 0.00 0.00 0.230 0.00 0.075 0.00 row4 0.00 0.100 0.395 0.760 0.24 0.00 0.070 0.42 0.300 0.46
-
df.groupby(['row', 'col'])['val0', 'val1'].mean().unstack(fill_value=0)
问题 7
Can Subdivide by multiple columns?
-
df.pivot_table( values='val0', index='row', columns=['item', 'col'], fill_value=0, aggfunc='mean') item item0 item1 item2 col col2 col3 col4 col0 col1 col2 col3 col4 col0 col1 col3 col4 row row0 0.00 0.00 0.00 0.77 0.00 0.00 0.00 0.00 0.00 0.605 0.86 0.65 row2 0.35 0.00 0.37 0.00 0.00 0.44 0.00 0.00 0.13 0.000 0.50 0.13 row3 0.00 0.00 0.00 0.00 0.31 0.00 0.81 0.00 0.00 0.000 0.28 0.00 row4 0.15 0.64 0.00 0.00 0.10 0.64 0.88 0.24 0.00 0.000 0.00 0.00
-
df.groupby( ['row', 'item', 'col'] )['val0'].mean().unstack(['item', 'col']).fillna(0).sort_index(1)
问题 8
Can Subdivide by multiple columns?
-
df.pivot_table( values='val0', index=['key', 'row'], columns=['item', 'col'], fill_value=0, aggfunc='mean') item item0 item1 item2 col col2 col3 col4 col0 col1 col2 col3 col4 col0 col1 col3 col4 key row key0 row0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.86 0.00 row2 0.00 0.00 0.37 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.50 0.00 row3 0.00 0.00 0.00 0.00 0.31 0.00 0.81 0.00 0.00 0.00 0.00 0.00 row4 0.15 0.64 0.00 0.00 0.00 0.00 0.00 0.24 0.00 0.00 0.00 0.00 key1 row0 0.00 0.00 0.00 0.77 0.00 0.00 0.00 0.00 0.00 0.81 0.00 0.65 row2 0.35 0.00 0.00 0.00 0.00 0.44 0.00 0.00 0.00 0.00 0.00 0.13 row3 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.28 0.00 row4 0.00 0.00 0.00 0.00 0.10 0.00 0.00 0.00 0.00 0.00 0.00 0.00 key2 row0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.40 0.00 0.00 row2 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.13 0.00 0.00 0.00 row4 0.00 0.00 0.00 0.00 0.00 0.64 0.88 0.00 0.00 0.00 0.00 0.00
-
df.groupby( ['key', 'row', 'item', 'col'] )['val0'].mean().unstack(['item', 'col']).fillna(0).sort_index(1)
pd.DataFrame.set_index
因为键集对于行和列都是唯一的df.set_index( ['key', 'row', 'item', 'col'] )['val0'].unstack(['item', 'col']).fillna(0).sort_index(1)
问题 9
Can I aggregate the frequency in which the column and rows occur together, aka "cross tabulation"?
-
df.pivot_table(index='row', columns='col', fill_value=0, aggfunc='size') col col0 col1 col2 col3 col4 row row0 1 2 0 1 1 row2 1 0 2 1 2 row3 0 1 0 2 0 row4 0 1 2 2 1
-
df.groupby(['row', 'col'])['val0'].size().unstack(fill_value=0)
-
pd.crosstab(df['row'], df['col'])
-
# get integer factorization `i` and unique values `r` # for column `'row'` i, r = pd.factorize(df['row'].values) # get integer factorization `j` and unique values `c` # for column `'col'` j, c = pd.factorize(df['col'].values) # `n` will be the number of rows # `m` will be the number of columns n, m = r.size, c.size # `i * m + j` is a clever way of counting the # factorization bins assuming a flat array of length # `n * m`. Which is why we subsequently reshape as `(n, m)` b = np.bincount(i * m + j, minlength=n * m).reshape(n, m) # BTW, whenever I read this, I think 'Bean, Rice, and Cheese' pd.DataFrame(b, r, c) col3 col2 col0 col1 col4 row3 2 0 0 1 0 row2 1 2 1 0 2 row0 1 0 1 2 1 row4 2 2 0 1 1
-
pd.get_dummies(df['row']).T.dot(pd.get_dummies(df['col'])) col0 col1 col2 col3 col4 row0 1 2 0 1 1 row2 1 0 2 1 2 row3 0 1 0 2 0 row4 0 1 2 2 1
问题 10
How do I convert a DataFrame from long to wide by pivoting on ONLY two columns?
-
第一步是为每一行分配一个数字 - 这个数字将是旋转结果中该值的行索引。这是使用
完成的GroupBy.cumcount
:df2.insert(0, 'count', df2.groupby('A').cumcount()) df2 count A B 0 0 a 0 1 1 a 11 2 2 a 2 3 3 a 11 4 0 b 10 5 1 b 10 6 2 b 14 7 0 c 7
第二步以新建的列为索引调用
DataFrame.pivot
.df2.pivot(*df2) # df2.pivot(index='count', columns='A', values='B') A a b c count 0 0.0 10.0 7.0 1 11.0 10.0 NaN 2 2.0 14.0 NaN 3 11.0 NaN NaN
-
而
DataFrame.pivot
只接受列,DataFrame.pivot_table
也接受数组,因此GroupBy.cumcount
可以直接作为index
传递,而无需创建显式列。df2.pivot_table(index=df2.groupby('A').cumcount(), columns='A', values='B') A a b c 0 0.0 10.0 7.0 1 11.0 10.0 NaN 2 2.0 14.0 NaN 3 11.0 NaN NaN
问题 11
How do I flatten the multiple index to single index after
pivot
如果 columns
键入 object
和字符串 join
df.columns = df.columns.map('|'.join)
其他format
df.columns = df.columns.map('{0[0]}|{0[1]}'.format)
延长
问题 10.1
数据帧:
d = data = {'A': {0: 1, 1: 1, 2: 1, 3: 2, 4: 2, 5: 3, 6: 5},
'B': {0: 'a', 1: 'b', 2: 'c', 3: 'a', 4: 'b', 5: 'a', 6: 'c'}}
df = pd.DataFrame(d)
A B
0 1 a
1 1 b
2 1 c
3 2 a
4 2 b
5 3 a
6 5 c
输出:
0 1 2
A
1 a b c
2 a b None
3 a None None
5 c None None
使用df.groupby
and pd.Series.tolist
t = df.groupby('A')['B'].apply(list)
out = pd.DataFrame(t.tolist(),index=t.index)
out
0 1 2
A
1 a b c
2 a b None
3 a None None
5 c None None
或者
使用 pd.pivot_table
with df.squeeze.
t = df.pivot_table(index='A',values='B',aggfunc=list).squeeze()
out = pd.DataFrame(t.tolist(),index=t.index)
为了更好地理解 Pandas 文档中的 pivot works you can look at the example:
df = pd.DataFrame({
'foo': ['one', 'one', 'one', 'two', 'two', 'two'],
'bar': ['A', 'B', 'C', 'A', 'B', 'C'],
'baz': [1, 2, 3, 4, 5, 6],
'zoo': ['x', 'y', 'z', 'q', 'w', 't']
})
输入Table:
foo bar baz zoo
0 one A 1 x
1 one B 2 y
2 one C 3 z
3 two A 4 q
4 two B 5 w
5 two C 6 t
枢轴:
pd.pivot(
data=df,
index='foo', # Column to use to make new frame’s index. If None, uses existing index.
columns='bar', # Column to use to make new frame’s columns.
values='baz' # Column(s) to use for populating new frame’s values.
)
输出table:
bar A B C
foo
one 1 2 3
two 4 5 6