如何根据柱状组的多（其他列）条件 select 数据帧行？

Question

将以下数据框复制到剪贴板：

  textId   score              textInfo
0  name1     1.0            text_stuff
1  name1     2.0  different_text_stuff
2  name1     2.0            text_stuff
3  name2     1.0  different_text_stuff
4  name2     1.3  different_text_stuff
5  name2     2.0  still_different_text
6  name2     1.0              yoko ono
7  name2     3.0     I lika da Gweneth
8  name3     1.0     Always a tradeoff
9  name3     3.0                What?!

现在使用

import pandas as pd
df=pd.read_clipboard(sep='\s\s+')

将其加载到您的环境中。如果 textId 的 score 组至少包含一个，那么如何切片此数据帧，以便返回 all 特定 textId 的行score 等于 1.0、2.0 和 3.0？此处，所需操作的结果将排除 textId 行 name1，因为其 score 组缺少 3.0 并排除 name3因为它的 score 组缺少 2.0:

  textId   score              textInfo
0  name2     1.0  different_text_stuff
1  name2     1.3  different_text_stuff
2  name2     2.0  still_different_text
3  name2     1.0              yoko ono
4  name2     3.0     I lika da Gweneth

尝试次数

df[df.textId == "textIdRowName" & df.score == 1.0 & df.score == 2.0 & & df.score == 3.0] 不正确，因为条件未生效在 textId 组中，但只有个别行。如果这可以重写以匹配 textId 组然后它可以被放置在 for 循环中并提供唯一的 textIdRowName。这样的功能会收集一系列 textId 的名字（比如 textIdThatMatchScore123) 然后可以用来切片原始 df 像 df[df.textId.isin(textIdThatMatchScore123)].
在 groupby 失败。

Answer 1

这是一个解决方案 - groupby textId，然后只保留那些唯一的分数值是 [1.0, 2.0, 3.0].

的超集 (>=) 的组

In [58]: df.groupby('textId').filter(lambda x: set(x['score']) >= set([1.,2.,3.]))
Out[58]: 
  textId  score              textInfo
3  name2    1.0  different_text_stuff
4  name2    1.3  different_text_stuff
5  name2    2.0  still_different_text
6  name2    1.0              yoko ono
7  name2    3.0     I lika da Gweneth

如何根据柱状组的多（其他列）条件 select 数据帧行？

How to select dataframe rows according to multi-(other column)-condition on columnar groups?

python

conditional

group-by

pandas

尝试次数