我不明白为什么我不能从 Pandas df 中删除重复项
I can't figure out why I can't remove duplicates from a Pandas df
我正在尝试使用 API 中的数据更新 Pandas 数据框并将其写入 .csv,我需要确保它不包含重复行。
我一直在这里查看问题可能是什么(例如忘记添加 inplace=True),但情况似乎并非如此。
所以...我 pandas 阅读了 csv
df = pd.read_csv(file)
然后我从 API 下载更多数据(我确保我有重复的行)并创建 df2(csv 是用相同的代码编写的,所以我确信重复的行是完全相同的).
现在我需要将一个数据框附加到另一个数据框,然后删除重复项:
df = df.append(df2, ignore_index=True)
df.drop_duplicates(subset=None, keep='first', inplace=True)
然后我尝试了
df = df.drop_duplicates()
我希望不会看到任何重复的行,但我一定是遗漏了一些东西,因为它们仍然存在,但我不明白为什么。
我确实检查了其他人的问题是否解决了这个问题,但我注意到问题通常是如何缺少 inplace=True 部分的……而我没有。
这是您需要的吗?
df.drop_duplicates(keep=False)
我正在尝试使用 API 中的数据更新 Pandas 数据框并将其写入 .csv,我需要确保它不包含重复行。
我一直在这里查看问题可能是什么(例如忘记添加 inplace=True),但情况似乎并非如此。
所以...我 pandas 阅读了 csv
df = pd.read_csv(file)
然后我从 API 下载更多数据(我确保我有重复的行)并创建 df2(csv 是用相同的代码编写的,所以我确信重复的行是完全相同的). 现在我需要将一个数据框附加到另一个数据框,然后删除重复项:
df = df.append(df2, ignore_index=True)
df.drop_duplicates(subset=None, keep='first', inplace=True)
然后我尝试了
df = df.drop_duplicates()
我希望不会看到任何重复的行,但我一定是遗漏了一些东西,因为它们仍然存在,但我不明白为什么。 我确实检查了其他人的问题是否解决了这个问题,但我注意到问题通常是如何缺少 inplace=True 部分的……而我没有。
这是您需要的吗?
df.drop_duplicates(keep=False)