非常感谢阅读。
我有一个大约 200,000 行和 46 列的熊猫数据框。其中 23 列以“_1”结尾,另外 23 列以“_2”结尾。例如:
forename_1 surname_1 area_1 forename_2 surname_2 area_2
george neil g jim bob k
charlie david s graham josh l
pete keith k dan joe q
ben steve w richard ed p
jim bob k george neil g
dan joe q pete keith k
Run Code Online (Sandbox Code Playgroud)
我已经使用 drop_duplicates 成功删除了重复项,但现在想要删除重复的行,但它们所在的组(1 或 2)已被反转。
也就是说,对于一行,我想将forename_1、surname_1 和area_1 中的组合值与所有其他行的forename_2、surname_2 和area_2 中的组合值进行比较。
我想从两者中删除第二个“重复”(例如 keep='first')。
为了帮助解释,上面有两种情况需要删除重复项:
george neil g jim bob k
jim bob k george neil g
pete keith k …Run Code Online (Sandbox Code Playgroud) 道歉,如果这是重复请告诉我,我很乐意删除.
我试图为另一列的不同值选择四个最高值.
数据集:
A COUNT
1 1 2
2 1 6
3 1 3
4 1 9
5 1 2
6 1 7
7 1 0
8 1 5
9 1 2
10 1 7
11 2 5
12 2 1
13 2 8
14 2 9
15 2 5
16 2 2
17 2 2
18 2 4
19 3 7
20 3 5
21 3 2
22 3 8
23 3 6
24 3 1
25 3 9 …Run Code Online (Sandbox Code Playgroud)