dask 数据帧 - 时间序列分区

Question

dask 数据帧 - 时间序列分区

我有一个时间序列熊猫数据框，我想按月和年进行分区。我的想法是获取可用作索引的日期时间列表，但中断不会发生在本月第一天的 0:00 开始。

monthly_partitons=np.unique(df.index.values.astype('datetime64[M]')).tolist()
da=dd.from_pandas(df, npartitions=1)

Run Code Online (Sandbox Code Playgroud)

如何将索引设置为每个月开始？我试过了，npartitions=len(monthly_partitions)但我意识到这是错误的，因为它可能不会在开始时的日期进行分区。应该如何确保它在该月的第一个日期分区？

更新：

使用da=da.repartition(freq='1M') 从 10 分钟数据重新采样到 1 分钟数据的数据见下文

Dask DataFrame Structure:
Open    High    Low Close   Vol OI  VI  
npartitions=5037050                             
2008-05-04 18:00:00 float64 float64 float64 float64 int64   int64   float64 int32
2008-05-04 18:01:00 ... ... ... ... ... ... ... ...
... ... ... ... ... ... ... ... ...
2017-12-01 16:49:00 ... ... ... ... ... ... ... ...
2017-12-01 16:50:00 ... ... ... ... ... ... ... ...
Dask Name: repartition-merge, 10074101 tasks

Run Code Online (Sandbox Code Playgroud)

更新 2：

这是重现问题的代码

import pandas as pd
import datetime as dt
import dask as dsk
import numpy as np
import dask.dataframe as dd

ts=pd.date_range("2015-01-01 00:00", " 2015-05-01 23:50", freq="10min")
df = pd.DataFrame(np.random.randint(0,100,size=(len(ts),4)), columns=list('ABCD'), index=ts)
ddf=dd.from_pandas(df,npartitions=1)
ddf=ddf.repartition(freq='1M')
ddf

Run Code Online (Sandbox Code Playgroud)

Answer 1

MRo*_*lin 3

假设您的数据帧已经按时间索引，您应该能够使用重新分区方法来完成此操作。

df = df.repartition(freq='1M')

Run Code Online (Sandbox Code Playgroud)

在上面的 MCVE 之后编辑

（感谢您添加最小且完整的示例！）

有趣的是，这看起来像是 pandas 或 dask 中的错误。我认为这'1M'意味着一个月，（正如它在中所做的那样pd.date_range）

In [12]: pd.date_range('2017-01-01', '2017-12-15', freq='1M')
Out[12]: 
DatetimeIndex(['2017-01-31', '2017-02-28', '2017-03-31', '2017-04-30',
               '2017-05-31', '2017-06-30', '2017-07-31', '2017-08-31',
               '2017-09-30', '2017-10-31', '2017-11-30'],
              dtype='datetime64[ns]', freq='M')

Run Code Online (Sandbox Code Playgroud)

然而，当传递给时pd.Timedelta，它意味着一分钟

In [13]: pd.Timedelta('1M')
Out[13]: Timedelta('0 days 00:01:00')

In [14]: pd.Timedelta('1m')
Out[14]: Timedelta('0 days 00:01:00')

Run Code Online (Sandbox Code Playgroud)

所以它挂起是因为它试图创建比您预期多大约 43200 个分区:)

我们应该为此提交一份错误报告（您有兴趣这样做吗？）。短期解决方法是自己明确指定部门。

In [17]: divisions = pd.date_range('2015-01-01', '2015-05-01', freq='1M').tolist
    ...: ()
    ...: divisions[0] = ddf.divisions[0]
    ...: divisions[-1] = ddf.divisions[-1]
    ...: ddf.repartition(divisions=divisions)
    ...: 
Out[17]: 
Dask DataFrame Structure:
                         A      B      C      D
npartitions=3                                  
2015-01-01 00:00:00  int64  int64  int64  int64
2015-02-28 00:00:00    ...    ...    ...    ...
2015-03-31 00:00:00    ...    ...    ...    ...
2015-05-01 23:50:00    ...    ...    ...    ...
Dask Name: repartition-merge, 7 tasks

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年前
查看次数：	2648 次
最近记录：	5 年，7 月前