我不明白为什么我不能从 Pandas df 中删除重复项

Question

我正在尝试使用 API 中的数据更新 Pandas 数据框并将其写入 .csv，我需要确保它不包含重复行。

我一直在这里查看问题可能是什么（例如忘记添加 inplace=True），但情况似乎并非如此。

所以...我 pandas 阅读了 csv

df = pd.read_csv(file)

然后我从 API 下载更多数据（我确保我有重复的行）并创建 df2（csv 是用相同的代码编写的，所以我确信重复的行是完全相同的). 现在我需要将一个数据框附加到另一个数据框，然后删除重复项：

df = df.append(df2, ignore_index=True)
df.drop_duplicates(subset=None, keep='first', inplace=True)

然后我尝试了

df = df.drop_duplicates()

我希望不会看到任何重复的行，但我一定是遗漏了一些东西，因为它们仍然存在，但我不明白为什么。我确实检查了其他人的问题是否解决了这个问题，但我注意到问题通常是如何缺少 inplace=True 部分的……而我没有。

Answer 1

这是您需要的吗？

df.drop_duplicates(keep=False)

I can't figure out why I can't remove duplicates from a Pandas df