如何使用 Pandas 将全天的每日数据重新采样为每小时数据？

Question

如何使用 Pandas 将全天的每日数据重新采样为每小时数据？

我有一个如下所示的数据框 df：

    city    datetime    value
0   city_a  2020-07-10  2
1   city_a  2020-07-11  5
2   city_b  2020-07-11  4

Run Code Online (Sandbox Code Playgroud)

我正在尝试以 6 小时的频率（每 00 小时、6 小时、12 小时和 18 小时的数据）重新采样每日日期时间。

下面的代码给了我几乎我期望的输出

my_df = my_df.set_index(['datetime', 'city'])
my_df = my_df.unstack(-1).resample('6H').pad()
my_df = my_df.stack().reset_index()
my_df = my_df[['city', 'datetime', 'value']]
my_df = my_df.sort_values(['city', 'datetime'])

Run Code Online (Sandbox Code Playgroud)

输出：

    city    datetime            value
0   city_a  2020-07-10 00:00:00 2.0
1   city_a  2020-07-10 06:00:00 2.0
2   city_a  2020-07-10 12:00:00 2.0
3   city_a  2020-07-10 18:00:00 2.0
4   city_a  2020-07-11 00:00:00 5.0
5   city_b  2020-07-11 00:00:00 4.0

Run Code Online (Sandbox Code Playgroud)

但是，我们可以看到 2020-07-11 的那一天并不完整。我希望包括 2020-07-11 06:00:00、12:00:00 和 18:00:00 在内的行出现在输出中。

所以我的预期输出应该是：

    city    datetime            value
0   city_a  2020-07-10 00:00:00 2.0
1   city_a  2020-07-10 06:00:00 2.0
2   city_a  2020-07-10 12:00:00 2.0
3   city_a  2020-07-10 18:00:00 2.0
4   city_a  2020-07-11 00:00:00 5.0
6   city_a  2020-07-11 06:00:00 5.0
8   city_a  2020-07-11 12:00:00 5.0
10  city_a  2020-07-11 18:00:00 5.0
5   city_b  2020-07-11 00:00:00 4.0
7   city_b  2020-07-11 06:00:00 4.0
9   city_b  2020-07-11 12:00:00 4.0
11  city_b  2020-07-11 18:00:00 4.0

Run Code Online (Sandbox Code Playgroud)

有没有一种优雅的方法可以用 Pandas 做到这一点？

生成数据帧的代码：

my_df = pd.DataFrame(data = {
    'city': ['city_a', 'city_a', 'city_b'],
    'datetime': 
[pd.to_datetime('2020/07/10'),pd.to_datetime('2020/07/11'),pd.to_datetime('2020/07/11')],
    'value': [2,5,4]
})

Run Code Online (Sandbox Code Playgroud)

Answer 1

Shu*_*rma 5

使用：

# STEP A
df1 = (df.groupby('city')['datetime'].max() + pd.Timedelta(days=1)).reset_index()

# STEP B
df1 = pd.concat([df, df1]).set_index('datetime')

# STEP C
df1 = df1.groupby('city', as_index=False).resample('6H').ffill()

# STEP D
df1 = df1.reset_index().drop('level_0', 1).dropna(subset=['value'])

Run Code Online (Sandbox Code Playgroud)

细节：

步骤 A：用于DataFrame.groupby对数据帧进行分组city以确定每组中日期的最大值并添加1 day到每组的最大值，这将需要重新采样数据帧。

# print(df1)
     city   datetime
0  city_a 2020-07-12
1  city_b 2020-07-12

Run Code Online (Sandbox Code Playgroud)

STEP B：使用pd.concatconcat 将原始数据框df连接到新创建的数据框df1，这是因为我们必须在 STEP C 中重新采样数据框。

# print(df1)
              city  value
datetime                 
2020-07-10  city_a    2.0
2020-07-11  city_a    5.0
2020-07-11  city_b    4.0
2020-07-12  city_a    NaN
2020-07-12  city_b    NaN

Run Code Online (Sandbox Code Playgroud)

步骤 C：使用DataFrame.resample重新采样分组的数据帧city，频率为6H并用于ffill前向填充值。

# print(df1)
                         city  value
  datetime                          
0 2020-07-10 00:00:00  city_a    2.0
  2020-07-10 06:00:00  city_a    2.0
  2020-07-10 12:00:00  city_a    2.0
  2020-07-10 18:00:00  city_a    2.0
  2020-07-11 00:00:00  city_a    5.0
  2020-07-11 06:00:00  city_a    5.0
  2020-07-11 12:00:00  city_a    5.0
  2020-07-11 18:00:00  city_a    5.0
  2020-07-12 00:00:00  city_a    NaN
1 2020-07-11 00:00:00  city_b    4.0
  2020-07-11 06:00:00  city_b    4.0
  2020-07-11 12:00:00  city_b    4.0
  2020-07-11 18:00:00  city_b    4.0
  2020-07-12 00:00:00  city_b    NaN

Run Code Online (Sandbox Code Playgroud)

步骤d：最后使用DataFrame.reset_index，并使用拖放未使用的列DataFrame.drop一起axis=1，还可以使用DataFrame.dropna与下降的行NaN中的列值value。

# print(df1)
              datetime    city  value
0  2020-07-10 00:00:00  city_a    2.0
1  2020-07-10 06:00:00  city_a    2.0
2  2020-07-10 12:00:00  city_a    2.0
3  2020-07-10 18:00:00  city_a    2.0
4  2020-07-11 00:00:00  city_a    5.0
5  2020-07-11 06:00:00  city_a    5.0
6  2020-07-11 12:00:00  city_a    5.0
7  2020-07-11 18:00:00  city_a    5.0
9  2020-07-11 00:00:00  city_b    4.0
10 2020-07-11 06:00:00  city_b    4.0
11 2020-07-11 12:00:00  city_b    4.0
12 2020-07-11 18:00:00  city_b    4.0

Run Code Online (Sandbox Code Playgroud)

Answer 2

Hug*_*lmn 5

我看到的唯一方法是添加一个空行，其日期时间等于最新的现有日期时间+一天。然后你几乎可以做完全相同的事情（pivot 是替换 set_index 和 unstack 的便捷方法）。

# adding a row where datetime corresponds to the max datetime + 1 day
df.loc[len(df), 'datetime'] = df.datetime.max() + pd.Timedelta(days=1)

# pivot to replace set_index & unstack
df = (df.pivot(index='datetime', columns='city')
   .resample('6H')
   .pad(3)
   .stack()
   .reset_index()
   .sort_values(['city', 'datetime']))

df[['city', 'datetime', 'value']]

    city    datetime    value
0   city_a  2020-07-10 00:00:00 2.0
1   city_a  2020-07-10 06:00:00 2.0
2   city_a  2020-07-10 12:00:00 2.0
3   city_a  2020-07-10 18:00:00 2.0
4   city_a  2020-07-11 00:00:00 5.0
6   city_a  2020-07-11 06:00:00 5.0
8   city_a  2020-07-11 12:00:00 5.0
10  city_a  2020-07-11 18:00:00 5.0
5   city_b  2020-07-11 00:00:00 4.0
7   city_b  2020-07-11 06:00:00 4.0
9   city_b  2020-07-11 12:00:00 4.0
11  city_b  2020-07-11 18:00:00 4.0

Run Code Online (Sandbox Code Playgroud)

归档时间：	5 年，6 月前
查看次数：	269 次
最近记录：	5 年，6 月前