我有一个ID列,日期列和值的数据集。我想计算连续日期范围内ID的连续出现/重复值。
我的问题非常类似于按组计数连续重复的值,但是在Python中。此外,该问题与如何在pandas数据框中查找重复项有所不同,因为我需要计数基于两列,其中一列不相同-这是日期(发生变化,但如果是连续的,我要对其进行计数)
这是一个示例数据集:
ID tDate value
79 2019-06-21 00:00:00 397
79 2019-07-13 00:00:00 404
79 2019-07-18 00:00:00 405
79 2019-07-19 00:00:00 406
79 2019-08-02 00:00:00 410
79 2019-08-09 00:00:00 413
Run Code Online (Sandbox Code Playgroud)
我希望结果数据集是:
ID tDate val consec_count
79 2019-06-21 00:00:00 397 0
79 2019-07-13 00:00:00 404 0
79 2019-07-18 00:00:00 405 1
79 2019-07-19 00:00:00 406 2
79 2019-08-02 00:00:00 410 0
79 2019-08-09 00:00:00 413 0
Run Code Online (Sandbox Code Playgroud)
我用0而不是1标记了“单个”,因为我需要将两者分开。我将以不同于单个记录的方式处理批处理的“重复项”。
谢谢!