基于时间的.rolling（）失败，分组依据

Question

基于时间的.rolling（）失败，分组依据

dates = pd.date_range(start='2016-01-01 09:30:00', periods=20, freq='s')
df = pd.DataFrame({'A': [1] * 20 + [2] * 12 + [3] * 8,
                   'B': np.concatenate((dates, dates)),
                   'C': np.arange(40)})

Run Code Online (Sandbox Code Playgroud)

失败：

df.groupby('A').rolling('4s', on='B').C.mean()
ValueError: B must be monotonic

Run Code Online (Sandbox Code Playgroud)

根据上面链接的问题，这似乎是一个错误。有没有人有一个好的解决方法？

Answer 1

Nic*_*eli 1

首先设置B为索引，以便Groupby.resample在其上使用方法。

df.set_index('B', inplace=True)

Run Code Online (Sandbox Code Playgroud)

A根据秒频率进行分组和重新采样。由于重新采样不能直接与滚动一起使用，因此请使用ffill(forward fillnawith NaNlimit as 0)。现在rolling通过将窗口大小指定为 4（因为freq=4s）间隔来使用函数，并取沿列的平均值，C如下所示：

for _, grp in df.groupby('A'):
    print (grp.resample('s').ffill(limit=0).rolling(4)['C'].mean().head(10)) #Remove head()

Run Code Online (Sandbox Code Playgroud)

获得的结果输出：

B
2016-01-01 09:30:00    NaN
2016-01-01 09:30:01    NaN
2016-01-01 09:30:02    NaN
2016-01-01 09:30:03    1.5
2016-01-01 09:30:04    2.5
2016-01-01 09:30:05    3.5
2016-01-01 09:30:06    4.5
2016-01-01 09:30:07    5.5
2016-01-01 09:30:08    6.5
2016-01-01 09:30:09    7.5
Freq: S, Name: C, dtype: float64
B
2016-01-01 09:30:00     NaN
2016-01-01 09:30:01     NaN
2016-01-01 09:30:02     NaN
2016-01-01 09:30:03    21.5
2016-01-01 09:30:04    22.5
2016-01-01 09:30:05    23.5
2016-01-01 09:30:06    24.5
2016-01-01 09:30:07    25.5
2016-01-01 09:30:08    26.5
2016-01-01 09:30:09    27.5
Freq: S, Name: C, dtype: float64
B
2016-01-01 09:30:12     NaN
2016-01-01 09:30:13     NaN
2016-01-01 09:30:14     NaN
2016-01-01 09:30:15    33.5
2016-01-01 09:30:16    34.5
2016-01-01 09:30:17    35.5
2016-01-01 09:30:18    36.5
2016-01-01 09:30:19    37.5
Freq: S, Name: C, dtype: float64

Run Code Online (Sandbox Code Playgroud)

长话短说

groupby.apply在适当设置索引后用作解决方法：

# tested in version - 0.19.1
df.groupby('A').apply(lambda grp: grp.resample('s').ffill(limit=0).rolling(4)['C'].mean())

Run Code Online (Sandbox Code Playgroud)

（或者）

# Tested in OP's version - 0.19.0
df.groupby('A').apply(lambda grp: grp.resample('s').ffill().rolling(4)['C'].mean())

Run Code Online (Sandbox Code Playgroud)

两者都有效。

归档时间：	9 年，3 月前
查看次数：	442 次
最近记录：	9 年，3 月前