如何将“pandas.DataFrame”与小时列融为一体，并以 15 分钟为间隔进行划分

Question

如何将“pandas.DataFrame”与小时列融为一体，并以 15 分钟为间隔进行划分

mil*_*ler 4 python datetime dataframe melt pandas

我有DataFrame这样的事情：

data = [['2019-01-01', .1, .2],
        ['2019-01-02', .5, .3],
        ['2019-01-03', .2, .4]]
df = pd.DataFrame(data, columns=['date', 'hour01', 'hour02'])

Run Code Online (Sandbox Code Playgroud)

         date  hour01  hour02
0  2019-01-01     0.1     0.2
1  2019-01-02     0.5     0.3
2  2019-01-03     0.2     0.4

Run Code Online (Sandbox Code Playgroud)

如何融化它以便我获得适当的 15 分钟间隔？像这样：

    timestamp              value
0  2019-01-01 00:00:00     0.1
1  2019-01-01 00:15:00     0.1
2  2019-01-01 00:30:00     0.1
3  2019-01-01 00:45:00     0.1
4  2019-01-01 01:00:00     0.2
5  2019-01-01 01:15:00     0.2
6  2019-01-01 01:30:00     0.2
7  2019-01-01 01:45:00     0.2
...
16 2019-01-03 00:00:00     0.2
17 2019-01-03 00:15:00     0.2
18 2019-01-03 00:30:00     0.2
19 2019-01-03 00:45:00     0.2
20 2019-01-03 01:00:00     0.4
21 2019-01-03 01:15:00     0.4
22 2019-01-03 01:30:00     0.4
23 2019-01-03 01:45:00     0.4

Run Code Online (Sandbox Code Playgroud)

编辑

         date  hour01  hour02
0  2019-01-01     0.1     0.2
1  2019-01-02     0.5     0.3
2  2019-01-03     0.2     0.4

Run Code Online (Sandbox Code Playgroud)

给了我这个：

27    2017-01-28  hour_01  34.90
28    2017-01-29  hour_01  36.04
29    2017-01-30  hour_01  36.51
          ...      ...    ...
16760 2018-12-02  hour_23  51.50
16761 2018-12-03  hour_23  54.00
16762 2018-12-04  hour_23  53.87

Run Code Online (Sandbox Code Playgroud)

从这往哪儿走？

Answer 1

Val*_*ino 5

也许你也可以从这里开始melt，但是除非melt由于某种原因需要使用，否则你可以通过以下方式获得它：

做'date'一个datetime如果还没有的话，
使用groupbyand您可以使用pandas date_rangeapply生成所有时间间隔的时间戳，并使用numpy Repeat跨越每小时值。
最后重置索引。

翻译成代码就是：

df['date'] = pd.to_datetime(df['date'])

ddf = df.groupby('date').apply(lambda row : pd.DataFrame(
      {'timestamp' : pd.date_range(row['date'].iloc[0], periods=4*len(df.columns[1:]), freq='15T'),
       'value' : np.repeat(np.array([row[col].iloc[0] for col in df.columns[1:]]), 4)}))
ddf.reset_index(inplace=True, drop=True)

Run Code Online (Sandbox Code Playgroud)

使用您的起始数据框ddf是：

             timestamp  value
0  2019-01-01 00:00:00    0.1
1  2019-01-01 00:15:00    0.1
2  2019-01-01 00:30:00    0.1
3  2019-01-01 00:45:00    0.1
4  2019-01-01 01:00:00    0.2
5  2019-01-01 01:15:00    0.2
6  2019-01-01 01:30:00    0.2
7  2019-01-01 01:45:00    0.2
8  2019-01-02 00:00:00    0.5
9  2019-01-02 00:15:00    0.5
10 2019-01-02 00:30:00    0.5
11 2019-01-02 00:45:00    0.5
12 2019-01-02 01:00:00    0.3
13 2019-01-02 01:15:00    0.3
14 2019-01-02 01:30:00    0.3
15 2019-01-02 01:45:00    0.3
16 2019-01-03 00:00:00    0.2
17 2019-01-03 00:15:00    0.2
18 2019-01-03 00:30:00    0.2
19 2019-01-03 00:45:00    0.2
20 2019-01-03 01:00:00    0.4
21 2019-01-03 01:15:00    0.4
22 2019-01-03 01:30:00    0.4
23 2019-01-03 01:45:00    0.4

Run Code Online (Sandbox Code Playgroud)

此代码将自动选择 after 后有多少列'date'，假设它们都是'hour'列。如果数据框中混合有其他列，则应将它们从中过滤掉df.columns[1:]。

归档时间：	6 年，3 月前
查看次数：	1350 次
最近记录：	6 年，3 月前