如果值在 pandas paquet 格式的列中是唯一的,那么搜索的最佳方法是什么?
What is the best way to search if a value is unique in a column in pandas paquet format?
我有一个 table 我使用
放入了一个 pandas 对象
pd.read_parquet(filename)
我感兴趣的数据集有3列,2列是数据,1列是ID。我必须在整个集合中搜索值,但丢弃重复的 ID。
将这些 ID 放入数据结构中的最快方法是什么,或者可以先清除重复数据?我在想一本字典,但可能已经有一种方法可以使用 pandas 更快地完成此操作,或者使用某种 cashe。
谢谢!
尝试
pd.read_parquet(filename).drop_duplicates(['ID'])
我有一个 table 我使用
放入了一个 pandas 对象pd.read_parquet(filename)
我感兴趣的数据集有3列,2列是数据,1列是ID。我必须在整个集合中搜索值,但丢弃重复的 ID。
将这些 ID 放入数据结构中的最快方法是什么,或者可以先清除重复数据?我在想一本字典,但可能已经有一种方法可以使用 pandas 更快地完成此操作,或者使用某种 cashe。
谢谢!
尝试
pd.read_parquet(filename).drop_duplicates(['ID'])