有什么有效的方法可以在大型 pandas 数据帧中同时过滤掉集群数据？

Question

我有一个很大的 pandas 数据框，看起来像这样：

DF:
ID               setID      Weight
PG_002456788.1    1         100
UG_004678935.1    2         110
UG_012975895.1    2         150
PG_023788904.1    3         200
UR_073542247.1    3         200
UR_099876678.2    3         264
PR_066120875.1    4         400
PR_098759678.1    4         600
UR_096677888.2    4         750
PG_012667994.1    5         800
PG_077555239.1    5         800

我想根据条件过滤掉行：

每个 setID 选择代表的标准按以下优先顺序排列

Preference 1 ID starting with PG_
Preference 2 ID starting with UG_
Preference 3 ID starting with PR_
Preference 4 ID starting with UR_

除此之外，下一个优先级是同时为每个 setID 集群选择最高权重。

'Desired output:'

ID              setID   weight
PG_002456788.1    1      100
UG_012975895.1    2      150
PG_023788904.1    3      200
PR_098759678.1    4      600
PG_012667994.1    5      800

此外，我想打印具有相同 ID 'Initials' 的行以及单独的重量（如果有的话）。

For example,

  ID             setID      weight
 PG_012667994.1    5        800
 PG_077555239.1    5        800

Answer 1

IIUC 你可以用 ID 中的初始子字符串定义一个 pd.Categorical 虚拟列，并使用它和 Weight 来对数据框进行排序。然后groupby setID，取first:

df['ID_init'] = pd.Categorical(df.ID.str.split('_',1).str[0],
                               categories=['PG','UG','PR','UR'],
                               ordered=True)

(df.sort_values(by=['ID_init','Weight'], ascending=[True, False])
   .groupby('setID')
   .head(1)
   .sort_values('setID')
   .drop('ID_init',1))

               ID  setID  Weight
0  PG_002456788.1      1     100
2  UG_012975895.1      2     150
3  PG_023788904.1      3     200
7  PR_098759678.1      4     600
9  PG_012667994.1      5     800

Answer 2

对于第一部分：根据 ID 创建一个名为代码的新列。然后，按代码和权重对数据帧进行排序，按 setID 分组并取第一个条目。

df['code'] = df['ID'].str[:2].replace({'PG': 1, 'UG': 2, 'PR': 3, 'UR': 4})
df2 = df.sort_values(['code', 'Weight'], ascending=[True, False]).groupby('setID').first()
df2 = df2.reset_index().drop('code', axis=1)

输出

   setID              ID  Weight
0      1  PG_002456788.1     100
1      2  UG_012975895.1     150
2      3  PG_023788904.1     200
3      4  PR_098759678.1     600
4      5  PG_012667994.1     800

第二部分：

df3 = df.join(df.groupby(['setID', 'code']).count()['ID'],
        on=['setID', 'code'], rsuffix='_Count')
df3[ df3['ID_Count'] > 1].drop(['code', 'ID_Count'], axis=1)

输出：

                ID  setID  Weight
1   UG_004678935.1      2     110
2   UG_012975895.1      2     150
4   UR_073542247.1      3     200
5   UR_099876678.2      3     264
6   PR_066120875.1      4     400
7   PR_098759678.1      4     600
9   PG_012667994.1      5     800
10  PG_077555239.1      5     800

有什么有效的方法可以在大型 pandas 数据帧中同时过滤掉集群数据？

Is there any efficient way to filter out cluster data simultaneously in a large pandas dataframe?

python

cluster-analysis

pandas