Python pandas：在groupby数据框中插入缺失日期和时间序列的行

Question

Python pandas：在groupby数据框中插入缺失日期和时间序列的行

cow*_*n05 3 python time-series dataframe pandas data-science

我有一个数据框df：

   Serial_no       date  Index     x    y
           1 2014-01-01      1   2.0  3.0
           1 2014-03-01      2   3.0  3.0
           1 2014-04-01      3   6.0  2.0
           2 2011-03-01      1   5.1  1.3
           2 2011-04-01      2   5.8  0.6
           2 2011-05-01      3   6.5 -0.1
           2 2011-07-01      4   3.0  5.0
           3 2019-10-01      1   7.9 -1.5
           3 2019-11-01      2   8.6 -2.2
           3 2020-01-01      3  10.0 -3.6
           3 2020-02-01      4  10.7 -4.3
           3 2020-03-01      5   4.0  3.0

Run Code Online (Sandbox Code Playgroud)

注意： 数据按月分组Serial_no（date每月第一天）。该Index列的设置使得每个连续报告的日期都是该系列中的连续数字。每组报告的日期数量Serial_no不同。每个组的报告日期间隔date都不同Serial_no（每个组的开始或结束日期不同）。

问题：date时间序列中的某些日期没有报告数据。请注意，每组中缺少一些日期Serial_no。我想在每个组中为那些缺失的日期添加一行date，并将数据在x和y列中报告为“NaN”。

我需要的数据框示例：

   Serial_no       date  Index       x       y
           1 2014-01-01      1     2.0     3.0
           1 2014-02-01      2     NaN     NaN
           1 2014-03-01      3     3.0     3.0
           1 2014-04-01      4     6.0     2.0
           2 2011-03-01      1     5.1     1.3
           2 2011-04-01      2     5.8     0.6
           2 2011-05-01      3     6.5    -0.1
           2 2011-06-01      4     NaN     NaN
           2 2011-07-01      5     3.0     5.0
           3 2019-10-01      1     7.9    -1.5
           3 2019-11-01      2     8.6    -2.2
           3 2019-12-01      3     NaN     NaN
           3 2020-01-01      4    10.0    -3.6
           3 2020-02-01      5    10.7    -4.3
           3 2020-03-01      6     4.0     3.0

Run Code Online (Sandbox Code Playgroud)

我知道如何NaN在插入缺少日期的行后替换空白单元格，使用以下代码：

import pandas as pd
import numpy as np

df['x'].replace('', np.nan, inplace=True)
df['y'].replace('', np.nan, inplace=True)

Run Code Online (Sandbox Code Playgroud)

我还知道如何在插入缺少日期的行后重置索引，使用以下代码：

df["Index"] = df.groupby("Serial_no",).cumcount('date')

Run Code Online (Sandbox Code Playgroud)

但是，我不确定如何找到每个组中缺少的日期并插入这些（每月报告的）日期的行。任何帮助表示赞赏。

Answer 1

jez*_*ael 9

将自定义函数与DataFrame.asfreqin一起使用GroupBy.apply，然后Index通过重新分配GroupBy.cumcount：

df['date'] = pd.to_datetime(df['date'])

df = (df.set_index('date')
        .groupby('Serial_no')
        .apply(lambda x: x.asfreq('MS'))
        .drop('Serial_no', axis=1))
df = df.reset_index()
df["Index"] = df.groupby("Serial_no").cumcount() + 1
print (df)
    Serial_no       date  Index     x    y
0           1 2014-01-01      1   2.0  3.0
1           1 2014-02-01      2   NaN  NaN
2           1 2014-03-01      3   3.0  3.0
3           1 2014-04-01      4   6.0  2.0
4           2 2011-03-01      1   5.1  1.3
5           2 2011-04-01      2   5.8  0.6
6           2 2011-05-01      3   6.5 -0.1
7           2 2011-06-01      4   NaN  NaN
8           2 2011-07-01      5   3.0  5.0
9           3 2019-10-01      1   7.9 -1.5
10          3 2019-11-01      2   8.6 -2.2
11          3 2019-12-01      3   NaN  NaN
12          3 2020-01-01      4  10.0 -3.6
13          3 2020-02-01      5  10.7 -4.3
14          3 2020-03-01      6   4.0  3.0

Run Code Online (Sandbox Code Playgroud)

替代解决方案DataFrame.reindex：

df['date'] = pd.to_datetime(df['date'])

f = lambda x: x.reindex(pd.date_range(x.index.min(), x.index.max(), freq='MS', name='date'))
df = df.set_index('date').groupby('Serial_no').apply(f).drop('Serial_no', axis=1)
df = df.reset_index()
df["Index"] = df.groupby("Serial_no").cumcount() + 1

Run Code Online (Sandbox Code Playgroud)

归档时间：	5 年，8 月前
查看次数：	3087 次
最近记录：	3 年，8 月前