我正在尝试使用 pandas 将每日数据重新采样为每周数据。
我正在使用以下内容:
weekly_start_date =pd.Timestamp('01/05/2011')
weekly_end_date =pd.Timestamp('05/28/2013')
daily_data = daily_data[(daily_data["date"] >= weekly_start_date) & (daily_data["date"] <= weekly_end_date)]
daily_data = daily_data.set_index('date',drop=False)
weekly_data = daily_data.resample('7D',how=np.sum,closed='left',label='left')
Run Code Online (Sandbox Code Playgroud)
问题是weekly_data 不再有日期列。
我错过了什么?
谢谢,
如果我理解你的问题,看起来你正确地进行了重采样(这里关于重采样的 Pandas 文档: http: //pandas.pydata.org/pandas-docs/stable/timeseries.html)。
weekly_data = daily_data.resample('7D',how=np.sum,closed='left',label='left')
Run Code Online (Sandbox Code Playgroud)
如果唯一的问题是您希望将 DateTimeIndex 复制到列中,您可以这样做。
weekly_data['date'] = weekly_data.index.values
Run Code Online (Sandbox Code Playgroud)
如果我误解了这个问题,我深表歉意。:)
您只能按数字列重新采样:
In [11]: df = pd.DataFrame([[pd.Timestamp('1/1/2012'), 1, 'a', [1]], [pd.Timestamp('1/2/2012'), 2, 'b', [2]]], columns=['date', 'no', 'letter', 'li'])
In [12]: df1 = df.set_index('date', drop=False)
In [13]: df1
Out[13]:
date no letter li
date
2012-01-01 2012-01-01 00:00:00 1 a [1]
2012-01-02 2012-01-02 00:00:00 2 b [2]
In [15]: df1.resample('M', how=np.sum)
Out[15]:
no
date
2012-01-31 3
Run Code Online (Sandbox Code Playgroud)
我们可以看到它使用 dtype 来确定它是否是数字:
In [16]: df1.no = df1.no.astype(object)
In [17]: df1.resample('M', how=sum)
Out[17]:
date no letter li
date
2012-01-31 0 0 0 0
Run Code Online (Sandbox Code Playgroud)
实际求和的一个糟糕的技巧:
In [21]: rng = pd.date_range(weekly_start_date, weekly_end_date, freq='M')
In [22]: g = df1.groupby(rng.asof)
In [23]: g.apply(lambda t: t.apply(lambda x: x.sum(1))).unstack()
Out[23]:
date no letter li
2011-12-31 2650838400000000000 3 ab [1, 2]
Run Code Online (Sandbox Code Playgroud)
日期是纪元纳秒的总和......
(希望我正在做一些愚蠢的事情,并且有一个更简单的方法!)