小编sa_*_*_zy的帖子

按组计算连续重复项

我有一个ID列,日期列和值的数据集。我想计算连续日期范围内ID的连续出现/重复值。

我的问题非常类似于按组计数连续重复的值,但是在Python中。此外,该问题与如何在pandas数据框中查找重复项有所不同,因为我需要计数基于两列,其中一列不相同-这是日期(发生变化,但如果是连续的,我要对其进行计数)

这是一个示例数据集:

ID      tDate            value
79  2019-06-21 00:00:00  397
79  2019-07-13 00:00:00  404
79  2019-07-18 00:00:00  405
79  2019-07-19 00:00:00  406
79  2019-08-02 00:00:00  410
79  2019-08-09 00:00:00  413
Run Code Online (Sandbox Code Playgroud)

我希望结果数据集是:

ID      tDate            val  consec_count
79  2019-06-21 00:00:00  397  0
79  2019-07-13 00:00:00  404  0
79  2019-07-18 00:00:00  405  1
79  2019-07-19 00:00:00  406  2
79  2019-08-02 00:00:00  410  0
79  2019-08-09 00:00:00  413  0
Run Code Online (Sandbox Code Playgroud)

我用0而不是1标记了“单个”,因为我需要将两者分开。我将以不同于单个记录的方式处理批处理的“重复项”。

谢谢!

python duplicates dataframe pandas

5
推荐指数
2
解决办法
72
查看次数

标签 统计

dataframe ×1

duplicates ×1

pandas ×1

python ×1