熊猫组按时间窗口

Question

熊猫组按时间窗口

我有一个包含非唯一时间戳的数据帧,我想按时间窗口对它们进行分组.基本逻辑是 -

1)通过在时间戳之前和之后添加n分钟,从每个时间戳创建时间范围.

2)按重叠的时间范围分组.这里的最终效果是时间窗口将小到单个时间戳+/-时间缓冲区,但是时间窗口的大小没有上限,只要多个事件的距离小于时间缓冲区

感觉就像df.groupby(pd.TimeGrouper(minutes = n))是正确的答案,但我不知道如何让TimeGrouper在看到时间缓冲区内的事件时创建动态时间范围.

例如,如果我在一组事件中尝试使用TimeGrouper('20s'):10:34:00,10:34:08,10:34:08,10:34:15,10:34:28和10 :34:54,那么大熊猫会给我三组(事件发生在10:34:00 - 10:34:20,10:34:20-10:34:40和10:34:40-10:35之间:00).我想回到两个小组,10:34:00-10:34:28,因为在那个时间范围内事件之间的差距不超过20秒,第二组是10:34:54 .

查找时间范围不是静态时间范围的时间窗口的最佳方法是什么？

鉴于系列看起来像 -

      time
0     2013-01-01 10:34:00+00:00
1     2013-01-01 10:34:12+00:00
2     2013-01-01 10:34:28+00:00
3     2013-01-01 10:34:54+00:00
4     2013-01-01 10:34:55+00:00
5     2013-01-01 10:35:19+00:00
6     2013-01-01 10:35:30+00:00

Run Code Online (Sandbox Code Playgroud)

如果我在该系列赛上进行df.groupby(pd.TimeGrouper('20s')),我会回到5组,10:34:00-:20,:20-:40,:40-10:35: 00,等等.我想要做的是创建弹性时间范围的功能..只要事件在20秒内,扩展时间范围.所以我希望能回来 -

2013-01-01 10:34:00 - 2013-01-01 10:34:48 
    0 2013-01-01 10:34:00+00:00
    1 2013-01-01 10:34:12+00:00
    2 2013-01-01 10:34:28+00:00

2013-01-01 10:34:54 - 2013-01-01 10:35:15
    3 2013-01-01 10:34:54+00:00
    4 2013-01-01 10:34:55+00:00

2013-01-01 10:35:19 - 2013-01-01 10:35:50
    5 2013-01-01 10:35:19+00:00
    6 2013-01-01 10:35:30+00:00

Run Code Online (Sandbox Code Playgroud)

谢谢.

Answer 1

Jef*_*eff 9

这是如何使用来创建自定义分组器.(需要pandas> = 0.13)进行timedelta计算,否则可以在其他版本中使用.

创建你的系列

In [31]: s = Series(range(6),pd.to_datetime(['20130101 10:34','20130101 10:34:08', '20130101 10:34:08', '20130101 10:34:15', '20130101 10:34:28', '20130101 10:34:54','20130101 10:34:55','20130101 10:35:12']))

In [32]: s
Out[32]: 
2013-01-01 10:34:00    0
2013-01-01 10:34:08    1
2013-01-01 10:34:08    2
2013-01-01 10:34:15    3
2013-01-01 10:34:28    4
2013-01-01 10:34:54    5
2013-01-01 10:34:55    6
2013-01-01 10:35:12    7
dtype: int64

Run Code Online (Sandbox Code Playgroud)

这只是计算连续元素之间的时间差,以秒为单位,但实际上可以是任何东西

In [33]: indexer = s.index.to_series().order().diff().fillna(0).astype('timedelta64[s]')

In [34]: indexer
Out[34]: 
2013-01-01 10:34:00     0
2013-01-01 10:34:08     8
2013-01-01 10:34:08     0
2013-01-01 10:34:15     7
2013-01-01 10:34:28    13
2013-01-01 10:34:54    26
2013-01-01 10:34:55     1
2013-01-01 10:35:12    17
dtype: float64

Run Code Online (Sandbox Code Playgroud)

Arbitrariy将事物<20s分配给组0,否则分配给组1.这也可以更随意.如果前一个差异<0,那么组2中的总差异(从第一个)> 50.

In [35]: grouper = indexer.copy()

In [36]: grouper[indexer<20] = 0

In [37]: grouper[indexer>20] = 1

In [95]: grouper[(indexer<20) & (indexer.cumsum()>50)] = 2

In [96]: grouper
Out[96]: 
2013-01-01 10:34:00    0
2013-01-01 10:34:08    0
2013-01-01 10:34:08    0
2013-01-01 10:34:15    0
2013-01-01 10:34:28    0
2013-01-01 10:34:54    1
2013-01-01 10:34:55    2
2013-01-01 10:35:12    2
dtype: float64

Run Code Online (Sandbox Code Playgroud)

Groupem(也可以在这里申请)

In [97]: s.groupby(grouper).sum()
Out[97]: 
0    10
1     5
2    13
dtype: int64

Run Code Online (Sandbox Code Playgroud)

归档时间：	12 年，2 月前
查看次数：	5450 次
最近记录：	12 年，2 月前