如何重新采样混合类型的 Pandas 数据框？

Question

如何重新采样混合类型的 Pandas 数据框？

BKa*_*Kay 5 python numpy time-series pandas

我使用以下 Python 代码生成混合类型（浮点数和字符串）Pandas DataFrame df3：

df1 = pd.DataFrame(np.random.randn(dates.shape[0],2),index=dates,columns=list('AB'))
df1['C'] = 'A'
df1['D'] = 'Pickles'
df2 = pd.DataFrame(np.random.randn(dates.shape[0], 2),index=dates,columns=list('AB'))
df2['C'] = 'B'
df2['D'] = 'Ham'
df3 = pd.concat([df1, df2], axis=0)

Run Code Online (Sandbox Code Playgroud)

当我将 df3 重新采样到更高的频率时，我不会将帧重新采样到更高的速率，但是如何忽略，我只会得到缺失值：

df4 = df3.groupby(['C']).resample('M',  how={'A': 'mean', 'B': 'mean',  'D': 'ffill'})
df4.head()

Run Code Online (Sandbox Code Playgroud)

结果：

                      B          A        D
C                                          
A 2014-03-31 -0.4640906 -0.2435414  Pickles
  2014-04-30        NaN        NaN      NaN
  2014-05-31        NaN        NaN      NaN
  2014-06-30 -0.5626360  0.6679614  Pickles
  2014-07-31        NaN        NaN      NaN

Run Code Online (Sandbox Code Playgroud)

当我将 df3 重新采样到较低频率时，我根本没有得到任何重新采样：

df5 = df3.groupby(['C']).resample('A',  how={'A': np.mean, 'B': np.mean,  'D': 'ffill'})
df5.head()

Run Code Online (Sandbox Code Playgroud)

结果：

                      B          A        D
C                                          
A 2014-03-31        NaN        NaN  Pickles
  2014-06-30        NaN        NaN  Pickles
  2014-09-30        NaN        NaN  Pickles
  2014-12-31 -0.7429617 -0.1065645  Pickles
  2015-03-31        NaN        NaN  Pickles

Run Code Online (Sandbox Code Playgroud)

我很确定这与混合类型有关，因为如果我只用数字列重做年度下采样，一切都会按预期工作：

df5b = df3[['A', 'B', 'C']].groupby(['C']).resample('A',  how={'A': np.mean, 'B': np.mean})
df5b.head()

Run Code Online (Sandbox Code Playgroud)

结果：

                     B          A
  C                                 
  A 2014-12-31 -0.7429617 -0.1065645
    2015-12-31 -0.6245030 -0.3101057
  B 2014-12-31  0.4213621 -0.0708263
    2015-12-31 -0.0607028  0.0110456

Run Code Online (Sandbox Code Playgroud)

但即使我切换到数字类型，重新采样到更高的频率仍然不能像我预期的那样工作：

df4b = df3[['A', 'B', 'C']].groupby(['C']).resample('M',  how={'A': 'mean', 'B': 'mean'})
df4b.head()

Run Code Online (Sandbox Code Playgroud)

结果：

                      B          A
C                                 
A 2014-03-31 -0.4640906 -0.2435414
  2014-04-30        NaN        NaN
  2014-05-31        NaN        NaN
  2014-06-30 -0.5626360  0.6679614
  2014-07-31        NaN        NaN

Run Code Online (Sandbox Code Playgroud)

这让我有两个问题：

重新采样混合类型的数据帧的正确方法是什么？
当从较低频率重新采样到较高频率时，进行重新采样以便插入新值的正确方法是什么？

即使您不能对这两部分都提供完整的答案，也欢迎部分解决方案或任一问题的答案。

Answer 1

BKa*_*Kay 3

当从较低频率重新采样到较高频率时，我意识到我在指定fill_method时指定了方式。当我这样做时，一切似乎都有效。

df4c = df3.groupby(['C']).resample('M', fill_method='ffill') df4c.head() A B D C A 2014-03-31 -0.2435414 -0.4640906 Pickles 2014-04-30 -0.2435414 -0.4640906 Pickles 2014-05-31 -0.2435414 -0.4640906 Pickles 2014-06-30 0.6679614 -0.5626360 Pickles 2014-07-31 0.6679614 -0.5626360 Pickles
Run Code Online (Sandbox Code Playgroud)
您可以获得一组更加有限的插值选择，但它确实可以处理混合类型。

当使用 no how选项（我相信它默认为mean）重新采样到较低频率时，下采样确实有效：

df5c =df3.groupby(['C']).resample('A') df5c.head() A B C A 2014-12-31 -0.1065645 -0.7429617 2015-12-31 -0.3101057 -0.6245030 B 2014-12-31 -0.0708263 0.4213621 2015-12-31 0.0110456 -0.0607028
Run Code Online (Sandbox Code Playgroud)
因此，问题似乎在于传递如何选项或选项之一的字典，大概是ffill，但我不确定。

归档时间：	9 年，10 月前
查看次数：	1469 次
最近记录：	4 年，7 月前