为 pandas 数据帧的每一行创建一个包含最大频率值列表的新列

Question

鉴于此数据框：

df2 = pd.DataFrame([[3,3,3,3,3,3,5,5,5,5],[2,2,2,2,8,8,8,8,6,6]], columns=list('ABCDEFGHIJ'))

   A  B  C  D  E  F  G  H  I  J
0  3  3  3  3  3  3  5  5  5  5
1  2  2  2  2  8  8  8  8  6  6

我创建了 2 个新闻栏，每行给出 max_freq 和 max_freq_value：

df2["max_freq_val"] = df2.apply(lambda x: x.mode().agg(list), axis=1)
df2["max_freq"] = df2.loc[:, df2.columns != "max_freq_val"].apply(lambda x: x.value_counts().max(), axis=1)

   A  B  C  D  E  F  G  H  I  J max_freq_val  max_freq
0  3  3  3  3  3  3  5  5  5  5          [3]         6
1  2  2  2  2  8  8  8  8  6  6       [2, 8]         4

编辑：我根据 @rhug123.

给出的答案编辑了我的代码

感谢大家的回答。

Answer 1

我们可以尝试 stack 然后用 agg 调整频率，将倍数放入 list

s = df2.stack().groupby(level=0).value_counts()
s = s[s.eq(s.max(level=0),level=0)].reset_index(level=1).groupby(level=0).agg(val= ('level_1',list),fre=(0,'first'))
df2 = df2.join(s)
df2
Out[156]: 
   A  B  C  D  E  F  G  H  I  J     val  fre
0  3  3  3  3  3  3  5  5  5  5     [3]    6
1  2  2  2  2  8  8  8  8  6  6  [2, 8]    4

Answer 2

也许你可以使用这个功能：

def give_back_maximums(a = [2,2,2,2,8,8,8,8,6,6]):
    values, counts = np.unique(a, return_counts=True)
    return values[counts >= counts.max()].tolist()

以下顺序可能会影响结果

df2["max_freq_value"] =  df2.apply(lambda x: give_back_maximums(x), axis=1)
df2["max_freq"] = df2.apply(lambda x: x.value_counts().max(), axis=1)
print(df2)
   A  B  C  D  E  F  G  H  I  J max_freq_value  max_freq
0  3  3  3  3  3  3  5  5  5  5            [3]         6
1  2  2  2  2  8  8  8  8  6  6         [2, 8]         4

希望对您有所帮助:)

Answer 3

试试这个，它使用 mode()

df2.assign(max_freq=pd.Series(df2.mode(axis=1).stack().groupby(level=0).agg(list)),
max_freq_value = df2.eq(df2.mode(axis=1)[0].squeeze(),axis=0).sum(axis=1))

为 pandas 数据帧的每一行创建一个包含最大频率值列表的新列

Create new column with a list of max frequency values for each row of a pandas dataframe

frequency

max

dataframe

python-3.x

pandas