根据两列删除重复项
drop duplicates according to two columns
我正在尝试删除 P 列的重复值,但要根据 S 列的值。我的意思是 S 列中的每个组。就像根据 S 组一样,有四个组 1、2、3 和 4。所以根据第一组,我试图找到值 5、7、6 并且第一个索引应该下降。
S A4 P
0 1 1 5
1 1 2 5
2 1 3 7
3 1 4 6
4 2 1 7
5 2 2 6
6 2 3 7
7 2 1 1
8 3 5 2
9 3 3 3
10 3 2 4
11 3 1 1
12 4 5 2
13 4 3 3
14 4 5 4
15 4 6 5
因此,根据 S 组,P 列中的每个重复值都不需要。这是我要查找的搜索 df:
Search
S A4 P
0 1 1 5
1 1 3 7
2 1 4 6
3 2 1 7
4 2 2 6
5 2 1 1
6 3 5 2
7 3 3 3
8 3 2 4
9 3 1 1
10 4 5 2
11 4 3 3
12 4 5 5
将 drop_duplicates()
与 subset
和 keep='first'
一起使用:
In [2335]: df.drop_duplicates(sub['S', 'P'], keep='first')
Out[2335]:
S A4 P
0 1 1 5
2 1 3 7
3 1 4 6
4 2 1 7
5 2 2 6
7 2 1 1
8 3 5 2
9 3 3 3
10 3 2 4
11 3 1 1
12 4 5 2
13 4 3 3
14 4 5 4
15 4 6 5
我正在尝试删除 P 列的重复值,但要根据 S 列的值。我的意思是 S 列中的每个组。就像根据 S 组一样,有四个组 1、2、3 和 4。所以根据第一组,我试图找到值 5、7、6 并且第一个索引应该下降。
S A4 P
0 1 1 5
1 1 2 5
2 1 3 7
3 1 4 6
4 2 1 7
5 2 2 6
6 2 3 7
7 2 1 1
8 3 5 2
9 3 3 3
10 3 2 4
11 3 1 1
12 4 5 2
13 4 3 3
14 4 5 4
15 4 6 5
因此,根据 S 组,P 列中的每个重复值都不需要。这是我要查找的搜索 df:
Search
S A4 P
0 1 1 5
1 1 3 7
2 1 4 6
3 2 1 7
4 2 2 6
5 2 1 1
6 3 5 2
7 3 3 3
8 3 2 4
9 3 1 1
10 4 5 2
11 4 3 3
12 4 5 5
将 drop_duplicates()
与 subset
和 keep='first'
一起使用:
In [2335]: df.drop_duplicates(sub['S', 'P'], keep='first')
Out[2335]:
S A4 P
0 1 1 5
2 1 3 7
3 1 4 6
4 2 1 7
5 2 2 6
7 2 1 1
8 3 5 2
9 3 3 3
10 3 2 4
11 3 1 1
12 4 5 2
13 4 3 3
14 4 5 4
15 4 6 5