对多索引 pandas DataFrame 求和

Question

假设我使用 df.set_index('Class','subclass') 创建了以下数据框，请记住有多个 Classes 与 sub类... A>Z。

Class   subclass    
  A       a           
  A       b 
  A       c 
  A       d 
  B       a            
  B       b

我将如何计算 Class 中的子类并创建一个名为 no of 类的单独列，以便我可以看到最大的 Class子数量类？我在想某种 for 循环，它贯穿 Class 字母，如果 Class 字母仍然相同，则对子类进行计数。然而，对于这样的问题，这似乎有点违反直觉。是否有更简单的方法，例如 df.groupby[].count？

所需的输出将是：

Class   subclass    No. of classes
  A       a                4    
  A       b 
  A       c 
  A       d 
  B       a                2    
  B       b

我已经尝试了 group multi-index pandas dataframe 中显示的级别参数，但这似乎对我不起作用

编辑：

我没有提到我想要 Class 中子类最多的一个 return。我通过以下方式实现了这一目标：

df.reset_index().groupby('Class')['subclass'].nunique().idxmax()

Answer 1

您可以使用 transform 将聚合计算作为新列添加回原始 df：

In [165]:
df['No. of classes'] = df.groupby('Class')['subclass'].transform('count')
df

Out[165]:
  Class subclass  No. of classes
0     A        a               4
1     A        b               4
2     A        c               4
3     A        d               4
4     B        a               2
5     B        b               2

Answer 2

您可以使用 transform，但得到重复值：

df['No. of classes'] = df.groupby(level='Class')['val'].transform('size')

print (df)
                val  No. of classes
Class subclass                     
A     a           1               4
      b           4               4
      c           5               4
      d           4               4
B     a           1               2
      b           2               2

但如果需要空值：

df['No. of classes'] = df.groupby(level='Class')
                         .apply(lambda x: pd.Series( [len(x)] + [np.nan] * (len(x)-1)))
                         .values
print (df)
                val  No. of classes
Class subclass                     
A     a           1             4.0
      b           4             NaN
      c           5             NaN
      d           4             NaN
B     a           1             2.0
      b           2             NaN

获取最大数 Class 的另一个解决方案是：

df = df.groupby(level=['Class'])
       .apply(lambda x: x.index.get_level_values('subclass').nunique())
       .idxmax()
print (df)
A

对多索引 pandas DataFrame 求和

Summing over a multiindex pandas DataFrame

python

multi-index

dataframe

pandas