Pandas重新索引MultiIndex相对于任意级别

Cha*_*les 2 python multi-index pandas

我正在尝试相对于索引的第二级重新索引数据帧.我有一个数据框,其中索引的第一级是用户ID,第二级是日期.例如:

pd.DataFrame({
'id': 3*['A'] + 5*['B'] + 4*['C'],
'date': ['01-01-2010', '02-01-2010', '12-01-2010',
         '04-01-2015', '05-01-2015', '03-01-2016', '04-01-2016', '05-01-2016',
         '01-01-2015', '02-01-2015', '03-01-2015', '04-01-2015'],
'value': np.random.randint(10,100, 12)})\
.set_index(['id', 'date'])
Run Code Online (Sandbox Code Playgroud)

我想重新索引日期以填写缺少的日期,但仅限于每个"id"组的最大日期和最小日期之间的日期.

例如,用户"A"应该具有2010年1月至12月的连续月度数据,用户"B"应该具有2015年4月到2016年5月之间的连续日期.为简单起见,我们假设我想用零填充NaN.

类似于此的其他问题假设我想对所有用户使用相同的date_range,这在此用例中不起作用.有任何想法吗?

jez*_*ael 5

我想你需要reset_index+ groupby+ resample+ asfreq+ fillna:

np.random.seed(123)
df = pd.DataFrame({
'id': 3*['A'] + 5*['B'] + 4*['C'],
'date': ['01-01-2010', '02-01-2010', '12-01-2010',
         '04-01-2015', '05-01-2015', '03-01-2016', '04-01-2016', '05-01-2016',
         '01-01-2015', '02-01-2015', '03-01-2015', '04-01-2015'],
'value': np.random.randint(10,100, 12)})

df['date'] = pd.to_datetime(df['date'])
df = df.set_index(['id', 'date'])
print (df)
               value
id date             
A  2010-01-01     76
   2010-02-01     27
   2010-12-01     93
B  2015-04-01     67
   2015-05-01     96
   2016-03-01     57
   2016-04-01     83
   2016-05-01     42
C  2015-01-01     56
   2015-02-01     35
   2015-03-01     93
   2015-04-01     88
Run Code Online (Sandbox Code Playgroud)
df1 = df.reset_index(level='id').groupby('id')['value'].resample('D').asfreq().fillna(0)
print (df1.head(10))
               value
id date             
A  2010-01-01   76.0
   2010-01-02    0.0
   2010-01-03    0.0
   2010-01-04    0.0
   2010-01-05    0.0
   2010-01-06    0.0
   2010-01-07    0.0
   2010-01-08    0.0
   2010-01-09    0.0
   2010-01-10    0.0
Run Code Online (Sandbox Code Playgroud)

但是,如果需要过程只最大值和最小值dates首先需要选择数据与agg通过用:idxmax idxminloc

df = df.reset_index()
df1 = df.loc[df.groupby('id')['date'].agg(['idxmin', 'idxmax']).stack()]
print (df1)
   id       date  value
0   A 2010-01-01     76
2   A 2010-12-01     93
3   B 2015-04-01     67
7   B 2016-05-01     42
8   C 2015-01-01     56
11  C 2015-04-01     88

df1 = df1.set_index('date').groupby('id')['value'].resample('MS').asfreq().fillna(0)
print (df1.head(10))
Run Code Online (Sandbox Code Playgroud)

  • 如果使用`MS`而不是'M`? (2认同)