如何计算 Pandas 中的重复项？

Question

我使用此模式在集合 duplicates:

的 A 列中查找重复项

duplicates = {1, 2, 3}
df[~df['A'].isin(duplicates)]

有效，returns 我的行没有重复。但是如何计算重复项？

我试过这些：

df[~df['A'].isin(duplicates)].count()
~df['A'].isin(duplicates).count()

以及如何将此计数提取到变量。

Answer 1

new_df = df[~df['A'].isin(duplicates)]
new_df['duplicate_values'] = new_df.duplicated('A')
new_df['duplicate_values'].sum()

How to count duplicates in Pandas?