如何根据numpy中的日期获得具有窗口的时间序列的回顾移动平均值?

Jac*_*ale 5 python numpy time-series moving-average pandas

我有这样的时间序:

                  times | data
1994-07-25 15:15:00.000 | 165
1994-07-25 16:00:00.000 | 165
1994-07-26 18:45:00.000 | 165

1994-07-27 15:15:00.000 | 165
1994-07-27 16:00:00.000 | 165

1994-07-28 18:45:00.000 | 165
1994-07-28 19:15:00.000 | 63
1994-07-28 20:35:00.000 | 64
1994-07-28 21:55:00.000 | 64

1994-07-29 14:15:00.000 | 62

1994-07-30 15:35:00.000 | 62
1994-07-30 16:55:00.000 | 61
Run Code Online (Sandbox Code Playgroud)

我想对这些数据做一个回顾移动平均线,但是有一个基于日期的窗口,而不是行或日期时间.


例如,说lookback = 3 days,然后

1994-07-29 14:15:00.000 | 62
Run Code Online (Sandbox Code Playgroud)

它的回顾移动平均值应该是平均值

1994-07-26 18:45:00.000 | 165

1994-07-27 15:15:00.000 | 165
1994-07-27 16:00:00.000 | 165

1994-07-28 18:45:00.000 | 165
1994-07-28 19:15:00.000 | 63
1994-07-28 20:35:00.000 | 64
1994-07-28 21:55:00.000 | 64
Run Code Online (Sandbox Code Playgroud)

因为这是一个3天的回顾,所以平均将从1994-07-263天开始,无论一天内有多少行.


此外,对于具有相同日期(不包括时间)的多行,其回溯移动平均值应该相同.


我怎样才能轻松实现这一目标?

pba*_*ber 5

我将使用 pandas DatetimeIndex来累积每个日期的值。

然后您可以使用rolling_mean来计算您需要的平均值。

import numpy as np
import pandas
df = pandas.DataFrame({'times': np.array(['1994-07-25 15:15:00.000',
                                '1994-07-25 16:00:00.000', 
                                '1994-07-26 18:45:00.000', 
                                '1994-07-27 15:15:00.000', 
                                '1994-07-27 16:00:00.000', 
                                '1994-07-28 18:45:00.000', 
                                '1994-07-28 19:15:00.000', 
                                '1994-07-28 20:35:00.000', 
                                '1994-07-28 21:55:00.000', 
                                '1994-07-29 14:15:00.000', 
                                '1994-07-30 15:35:00.000', 
                                '1994-07-30 16:55:00.000'], dtype='datetime64'),
                       'data': [165,165,165,165,165,165,63,64,64,62,62,61]})
df = df.set_index('times')
g = df.groupby(df.index.date)
days = 3
pandas.rolling_mean(g.sum(), days)
Run Code Online (Sandbox Code Playgroud)

这给出:

1994-07-25         NaN
1994-07-26         NaN
1994-07-27  275.000000
1994-07-28  283.666667
1994-07-29  249.333333
1994-07-30  180.333333
Run Code Online (Sandbox Code Playgroud)

您可能希望使用centermin_periods参数来rolling_mean获得您想要的确切结果。


ato*_*3ls 0

我建议使用pandas,特别是该resample功能:

import pandas as pd
Run Code Online (Sandbox Code Playgroud)

首先,读入您的数据,假设保存为 csv:

df=pd.read_csv('yourfile.txt',sep=' | ',parse_dates=True,index_col=0)
Run Code Online (Sandbox Code Playgroud)

然后在一天的时间内重新采样,注意这默认为每天样本的“平均值”:

df2 = df.resample('D')
Run Code Online (Sandbox Code Playgroud)

要获取最后 3 天:

df2[-3:]
Run Code Online (Sandbox Code Playgroud)

给出:

            data
1994-07-28  89.0
1994-07-29  62.0
1994-07-30  61.5
Run Code Online (Sandbox Code Playgroud)

假设yourfile.txt像这样保存:

times | data
1994-07-25 15:15:00.000 | 165
1994-07-25 16:00:00.000 | 165
1994-07-26 18:45:00.000 | 16
1994-07-27 15:15:00.000 | 165
1994-07-27 16:00:00.000 | 165
1994-07-28 18:45:00.000 | 165
1994-07-28 19:15:00.000 | 63
1994-07-28 20:35:00.000 | 64
1994-07-28 21:55:00.000 | 64
1994-07-29 14:15:00.000 | 62
1994-07-30 15:35:00.000 | 62
1994-07-30 16:55:00.000 | 61
Run Code Online (Sandbox Code Playgroud)