通过 GroupBy.agg 和命名聚合计算加权平均值

Question

Pandas 版本 0.25 通过函数 agg 和 namedtuples 支持 "Named Aggregation"。您需要按照 doc 的描述传递列、聚合器对。它还说：

If your aggregation functions require additional arguments, partially apply them with functools.partial().

我想应用这个原则来获得加权平均值（除了简单的计数和平均值）。我的输入 table 是

import pandas as pd

t = pd.DataFrame({'bucket':['a', 'a', 'b', 'b', 'b'], 'weight': [2, 3, 1, 4, 3], 
                  'qty': [100, 500, 200, 800, 700]})

我的查询失败了：

import functools
import numpy as np

t.groupby('bucket').agg(
        NR= ('bucket', 'count'),
        AVG_QTY= ('qty', np.mean),
        W_AVG_QTY= ('qty', functools.partial(np.average, weights='weight'))
   )

带有错误消息：

TypeError: 1D weights expected when shapes of a and weights differ.

我假设问题出在将参数固定为另一列而不是常量？如果没有使用 apply 和 returns a Series 的 lambda 表达式的解决方法，我如何才能完成这项工作？

Answer 1

加权平均值需要 2 个独立的系列（即 DataFrame）。因此 GroupBy.apply 是要使用的正确聚合方法。使用 pd.concat 加入结果。

pd.concat([t.groupby('bucket').agg(NR = ('bucket', 'count'),
                                   AVG_QTY = ('qty', np.mean)),
           (t.groupby('bucket').apply(lambda gp: np.average(gp.qty, weights=gp.weight))
             .rename('W_AVG_QTY'))], 
          axis=1)

#        NR     AVG_QTY  W_AVG_QTY
#bucket                           
#a        2  300.000000      340.0
#b        3  566.666667      687.5

这个可以用agg来完成，假设你的DataFrame有一个唯一的索引，尽管我不能保证它在所有切片的情况下都会非常高效。我们创建自己的函数来接受值系列和整个 DataFrame。然后该函数使用系列对 DataFrame 进行子集化以获得每个组的权重。

def my_w_avg(s, df, wcol):
    return np.average(s, weights=df.loc[s.index, wcol])

t.groupby('bucket').agg(
        NR= ('bucket', 'count'),
        AVG_QTY= ('qty', np.mean),
        W_AVG_QTY= ('qty', functools.partial(my_w_avg, df=t, wcol='weight'))
   )

#        NR     AVG_QTY  W_AVG_QTY
#bucket                           
#a        2  300.000000      340.0
#b        3  566.666667      687.5

通过 GroupBy.agg 和命名聚合计算加权平均值

Calculating weighted average by GroupBy.agg and a named aggregation

python

group-by

pandas

functools