熊猫:将日期范围解压缩到个别日期

ksi*_*ndi 8 python time-series pandas

数据集:我有一个1GB的股票数据集,其日期范围之间的值.日期范围没有重叠,数据集按(ticker,start_date)排序.

>>> df.head()
             start_date    end_date                   val    
ticker         
AAPL         2014-05-01  2014-05-01         10.0000000000
AAPL         2014-06-05  2014-06-10         20.0000000000
GOOG         2014-06-01  2014-06-15         50.0000000000
MSFT         2014-06-16  2014-06-16                  None
TWTR         2014-01-17  2014-05-17         10.0000000000
Run Code Online (Sandbox Code Playgroud)

目标:我想解压缩数据框,以便我有个别日期而不是日期范围.例如,AAPL行将从仅2行变为7行:

>>> AAPL_decompressed.head()
                   val
date                       
2014-05-01         10.0000000000
2014-06-05         20.0000000000
2014-06-06         20.0000000000
2014-06-07         20.0000000000
2014-06-08         20.0000000000
Run Code Online (Sandbox Code Playgroud)

我希望有一个很好的优化方法,如pample,如resample,可以在几行中完成.

jor*_*ris 8

多了几行,但我认为这会导致你问的问题:

从您的数据框开始:

In [70]: df
Out[70]:
       start_date   end_date  val  row
ticker
AAPL   2014-05-01 2014-05-01   10    0
AAPL   2014-06-05 2014-06-10   20    1
GOOG   2014-06-01 2014-06-15   50    2
MSFT   2014-06-16 2014-06-16  NaN    3
TWTR   2014-01-17 2014-05-17   10    4
Run Code Online (Sandbox Code Playgroud)

首先,我重塑这个数据帧的数据帧与一个date列(所以每一行重复的每个日期两次start_dateend_date(我所谓的添加计数器列row):

In [60]: df['row'] = range(len(df))
In [61]: starts = df[['start_date', 'val', 'row']].rename(columns={'start_date': 'date'})
In [62]: ends = df[['end_date', 'val', 'row']].rename(columns={'end_date':'date'})
In [63]: df_decomp = pd.concat([starts, ends])
In [64]: df_decomp = df_decomp.set_index('row', append=True)
In [65]: df_decomp.sort_index()
Out[65]:
                 date  val
ticker row
AAPL   0   2014-05-01   10
       0   2014-05-01   10
       1   2014-06-05   20
       1   2014-06-10   20
GOOG   2   2014-06-01   50
       2   2014-06-15   50
MSFT   3   2014-06-16  NaN
       3   2014-06-16  NaN
TWTR   4   2014-01-17   10
       4   2014-05-17   10
Run Code Online (Sandbox Code Playgroud)

在此基础上新的数据帧,我可以分组它通过tickerrow,和日常应用resample上的每一组中和fillna(使用方法"垫"转发填充)

In [66]: df_decomp = df_decomp.groupby(level=[0,1]).apply(lambda x: x.set_index('date').resample('D').fillna(method='pad'))

In [67]: df_decomp = df_decomp.reset_index(level=1, drop=True)
Run Code Online (Sandbox Code Playgroud)

最后一个命令是删除现在多余的row索引级别.
当我们访问AAPL行时,它会提供您想要的输出:

In [69]: df_decomp.loc['AAPL']
Out[69]:
            val
date
2014-05-01   10
2014-06-05   20
2014-06-06   20
2014-06-07   20
2014-06-08   20
2014-06-09   20
2014-06-10   20
Run Code Online (Sandbox Code Playgroud)