删除已排序 DataFrame 中的相邻重复项

Question

删除已排序 DataFrame 中的相邻重复项

删除相邻重复项之前已讨论过，但仅就直接相邻项（上方/下方一行）而言。

我有以下数据框：

df = pd.DataFrame(data={"item_no": [11, 4, 4, 4, 7, 8, 7, 11, 11, 5, 5, 6, 4], "time": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13]})

Run Code Online (Sandbox Code Playgroud)

df:

    item_no time
0   11      1
1   4       2
2   4       3
3   4       4
4   7       5
5   8       6
6   7       7
7   11      8
8   11      9
9   5       10
10  5       11
11  6       12
12  4       13

Run Code Online (Sandbox Code Playgroud)

它按time列排序（将其想象为时间序列）。我需要删除item_no列中相邻的重复项，只保留第一个条目。

预期输出：

    item_no time
0   11      1
1   4       2
2   7       5
3   8       6
4   7       7
5   11      8
6   5       10
7   6       12
8   4       13

Run Code Online (Sandbox Code Playgroud)

可以看出，应该能够删除任意数量的相邻重复项。我知道我可以逐行迭代，并检查前一个是否item_no相同。但我正在寻找一种有效的解决方案，因为这将应用于数百万行。

Answer 1

wwn*_*nde 5

请尝试

df[df.item_no!=df.item_no.shift(1)]



   item_no  time
0        11     1
1         4     2
4         7     5
5         8     6
6         7     7
7        11     8
9         5    10
11        6    12
12        4    13

Run Code Online (Sandbox Code Playgroud)

归档时间：	5 年，1 月前
查看次数：	360 次
最近记录：	5 年，1 月前