Pandas pivot table 一次用于多个列
Pandas pivot table for multiple columns at once
假设我有一个 DataFrame:
nj ptype wd wpt
0 2 1 2 1
1 3 2 1 2
2 1 1 3 1
3 2 2 3 3
4 3 1 2 2
我想使用 ptype
作为索引来汇总此数据,如下所示:
nj wd wpt
1.0 2.0 3.0 1.0 2.0 3.0 1.0 2.0 3.0
ptype
1 1 1 1 0 2 1 2 1 0
2 0 1 1 1 0 1 0 1 1
您可以通过使用 aggfunc='count'
创建一个枢轴 table 然后将它们全部连接起来,为最终值构建每个顶级列,如下所示:
nj = df.pivot_table(index='ptype', columns='nj', aggfunc='count').ix[:, 'wd']
wpt = df.pivot_table(index='ptype', columns='wpt', aggfunc='count').ix[:, 'wd']
wd = df.pivot_table(index='ptype', columns='wd', aggfunc='count').ix[:, 'nj']
out = pd.concat([nj, wd, wpt], axis=1, keys=['nj', 'wd', 'wpt']).fillna(0)
out.columns.names = [None, None]
print(out)
nj wd wpt
1 2 3 1 2 3 1 2 3
ptype
1 1.0 1.0 1.0 0.0 2.0 1.0 2.0 1.0 0.0
2 0.0 1.0 1.0 1.0 0.0 1.0 0.0 1.0 1.0
但我真的很不喜欢这个,感觉不对。我想知道是否有办法以更简单的方式执行此操作,最好使用内置方法。提前致谢!
您可以先进行聚合,然后 pivot
使用 unstack
方法进行聚合,而不是一步完成:
(df.set_index('ptype')
.groupby(level='ptype')
# to do the count of columns nj, wd, wpt against the column ptype using
# groupby + value_counts
.apply(lambda g: g.apply(pd.value_counts))
.unstack(level=1)
.fillna(0))
# nj wd wpt
# 1 2 3 1 2 3 1 2 3
#ptype
#1 1.0 1.0 1.0 0.0 2.0 1.0 2.0 1.0 0.0
#2 0.0 1.0 1.0 1.0 0.0 1.0 0.0 1.0 1.0
另一个避免使用apply
方法的选项:
(df.set_index('ptype').stack()
.groupby(level=[0,1])
.value_counts()
.unstack(level=[1,2])
.fillna(0)
.sort_index(axis=1))
样本数据上的 Naive Timing:
原解:
%%timeit
nj = df.pivot_table(index='ptype', columns='nj', aggfunc='count').ix[:, 'wd']
wpt = df.pivot_table(index='ptype', columns='wpt', aggfunc='count').ix[:, 'wd']
wd = df.pivot_table(index='ptype', columns='wd', aggfunc='count').ix[:, 'nj']
out = pd.concat([nj, wd, wpt], axis=1, keys=['nj', 'wd', 'wpt']).fillna(0)
out.columns.names = [None, None]
# 100 loops, best of 3: 12 ms per loop
选项一:
%%timeit
(df.set_index('ptype')
.groupby(level='ptype')
.apply(lambda g: g.apply(pd.value_counts))
.unstack(level=1)
.fillna(0))
# 100 loops, best of 3: 10.1 ms per loop
选项二:
%%timeit
(df.set_index('ptype').stack()
.groupby(level=[0,1])
.value_counts()
.unstack(level=[1,2])
.fillna(0)
.sort_index(axis=1))
# 100 loops, best of 3: 4.3 ms per loop
另一种使用 groupby 和 unstack 的解决方案。
df2 = pd.concat([df.groupby(['ptype',e])[e].count().unstack() for e in ['nj','wd','wpt']],axis=1).fillna(0).astype(int)
df2.columns=pd.MultiIndex.from_product([['nj','wd','wpt'],[1.0,2.0,3.0]])
df2
Out[207]:
nj wd wpt
1.0 2.0 3.0 1.0 2.0 3.0 1.0 2.0 3.0
ptype
1 1 1 1 0 2 1 2 1 0
2 0 1 1 1 0 1 0 1 1
更简单的解决方案是
employee.pivot_table(index= ‘Title’, values= “Salary”, aggfunc= [np.mean, np.median, min, max, np.std], fill_value=0)
在这种情况下,对于工资列,我们使用不同的聚合函数
假设我有一个 DataFrame:
nj ptype wd wpt
0 2 1 2 1
1 3 2 1 2
2 1 1 3 1
3 2 2 3 3
4 3 1 2 2
我想使用 ptype
作为索引来汇总此数据,如下所示:
nj wd wpt
1.0 2.0 3.0 1.0 2.0 3.0 1.0 2.0 3.0
ptype
1 1 1 1 0 2 1 2 1 0
2 0 1 1 1 0 1 0 1 1
您可以通过使用 aggfunc='count'
创建一个枢轴 table 然后将它们全部连接起来,为最终值构建每个顶级列,如下所示:
nj = df.pivot_table(index='ptype', columns='nj', aggfunc='count').ix[:, 'wd']
wpt = df.pivot_table(index='ptype', columns='wpt', aggfunc='count').ix[:, 'wd']
wd = df.pivot_table(index='ptype', columns='wd', aggfunc='count').ix[:, 'nj']
out = pd.concat([nj, wd, wpt], axis=1, keys=['nj', 'wd', 'wpt']).fillna(0)
out.columns.names = [None, None]
print(out)
nj wd wpt
1 2 3 1 2 3 1 2 3
ptype
1 1.0 1.0 1.0 0.0 2.0 1.0 2.0 1.0 0.0
2 0.0 1.0 1.0 1.0 0.0 1.0 0.0 1.0 1.0
但我真的很不喜欢这个,感觉不对。我想知道是否有办法以更简单的方式执行此操作,最好使用内置方法。提前致谢!
您可以先进行聚合,然后 pivot
使用 unstack
方法进行聚合,而不是一步完成:
(df.set_index('ptype')
.groupby(level='ptype')
# to do the count of columns nj, wd, wpt against the column ptype using
# groupby + value_counts
.apply(lambda g: g.apply(pd.value_counts))
.unstack(level=1)
.fillna(0))
# nj wd wpt
# 1 2 3 1 2 3 1 2 3
#ptype
#1 1.0 1.0 1.0 0.0 2.0 1.0 2.0 1.0 0.0
#2 0.0 1.0 1.0 1.0 0.0 1.0 0.0 1.0 1.0
另一个避免使用apply
方法的选项:
(df.set_index('ptype').stack()
.groupby(level=[0,1])
.value_counts()
.unstack(level=[1,2])
.fillna(0)
.sort_index(axis=1))
样本数据上的 Naive Timing:
原解:
%%timeit
nj = df.pivot_table(index='ptype', columns='nj', aggfunc='count').ix[:, 'wd']
wpt = df.pivot_table(index='ptype', columns='wpt', aggfunc='count').ix[:, 'wd']
wd = df.pivot_table(index='ptype', columns='wd', aggfunc='count').ix[:, 'nj']
out = pd.concat([nj, wd, wpt], axis=1, keys=['nj', 'wd', 'wpt']).fillna(0)
out.columns.names = [None, None]
# 100 loops, best of 3: 12 ms per loop
选项一:
%%timeit
(df.set_index('ptype')
.groupby(level='ptype')
.apply(lambda g: g.apply(pd.value_counts))
.unstack(level=1)
.fillna(0))
# 100 loops, best of 3: 10.1 ms per loop
选项二:
%%timeit
(df.set_index('ptype').stack()
.groupby(level=[0,1])
.value_counts()
.unstack(level=[1,2])
.fillna(0)
.sort_index(axis=1))
# 100 loops, best of 3: 4.3 ms per loop
另一种使用 groupby 和 unstack 的解决方案。
df2 = pd.concat([df.groupby(['ptype',e])[e].count().unstack() for e in ['nj','wd','wpt']],axis=1).fillna(0).astype(int)
df2.columns=pd.MultiIndex.from_product([['nj','wd','wpt'],[1.0,2.0,3.0]])
df2
Out[207]:
nj wd wpt
1.0 2.0 3.0 1.0 2.0 3.0 1.0 2.0 3.0
ptype
1 1 1 1 0 2 1 2 1 0
2 0 1 1 1 0 1 0 1 1
更简单的解决方案是
employee.pivot_table(index= ‘Title’, values= “Salary”, aggfunc= [np.mean, np.median, min, max, np.std], fill_value=0)
在这种情况下,对于工资列,我们使用不同的聚合函数