根据 pandas 数据框中的条件获取最大值和最小值
get max and min values based on conditions in pandas dataframe
我有一个这样的数据框
count
A
B
Total
yes
4900
0
0
yes
1000
1000
0
sum_yes
5900
1000
0
yes
4000
0
0
yes
1000
0
0
sum_yes
5000
0
0
我想要这样的结果,即仅针对 'count' = 'sum_yes' 的行计算 A 列和 B 列的最大值,如果 B 的值 =0,则计算最小值
count
A
B
Total
yes
4900
0
0
yes
1000
1000
0
sum_yes
5900
1000
1000
yes
4000
0
0
yes
1000
0
0
sum_yes
5000
0
5000
到目前为止我已经试过了:
df['Total'] = [df[['A', 'B']].where(df['count'] == 'sum_yes').max(axis=0) if
'B'==0 else df[['A', 'B']]
.where(df['count'] == 'sum_yes').min(axis=0)]
但我得到了 ValueError The truth value of a Series is ambiguous.使用 a.empty、a.bool()、a.item()、a.any() 或 a.all()
知道如何解决这个问题
您可以使用 numpy.where
:
new_values = np.where((df["count"] == "sum_yes") & (df.B == 0),
df.loc[:, ["A", "B"]].max(1),
df.loc[:, ["A", "B"]].min(1),
)
df.assign(Total = new_values)
count A B Total
0 yes 4900 0 0
1 yes 1000 0 0
2 sum_yes 5900 1000 1000
3 yes 4000 1000 1000
4 yes 1000 0 0
5 sum_yes 5000 0 5000
我有一个这样的数据框
count | A | B | Total |
---|---|---|---|
yes | 4900 | 0 | 0 |
yes | 1000 | 1000 | 0 |
sum_yes | 5900 | 1000 | 0 |
yes | 4000 | 0 | 0 |
yes | 1000 | 0 | 0 |
sum_yes | 5000 | 0 | 0 |
我想要这样的结果,即仅针对 'count' = 'sum_yes' 的行计算 A 列和 B 列的最大值,如果 B 的值 =0,则计算最小值
count | A | B | Total |
---|---|---|---|
yes | 4900 | 0 | 0 |
yes | 1000 | 1000 | 0 |
sum_yes | 5900 | 1000 | 1000 |
yes | 4000 | 0 | 0 |
yes | 1000 | 0 | 0 |
sum_yes | 5000 | 0 | 5000 |
到目前为止我已经试过了:
df['Total'] = [df[['A', 'B']].where(df['count'] == 'sum_yes').max(axis=0) if
'B'==0 else df[['A', 'B']]
.where(df['count'] == 'sum_yes').min(axis=0)]
但我得到了 ValueError The truth value of a Series is ambiguous.使用 a.empty、a.bool()、a.item()、a.any() 或 a.all()
知道如何解决这个问题
您可以使用 numpy.where
:
new_values = np.where((df["count"] == "sum_yes") & (df.B == 0),
df.loc[:, ["A", "B"]].max(1),
df.loc[:, ["A", "B"]].min(1),
)
df.assign(Total = new_values)
count A B Total
0 yes 4900 0 0
1 yes 1000 0 0
2 sum_yes 5900 1000 1000
3 yes 4000 1000 1000
4 yes 1000 0 0
5 sum_yes 5000 0 5000