对于DASK文档有关重新分割,以减少开销谈到这里.
然而,它们似乎表明您需要预先知道数据帧的外观(即预期数据的1/100).
是否有一种很好的方法可以在不做假设的情况下明智地进行重新分配?目前我只是重新分配npartitions = ncores * magic_number
,并设置强制True
扩展分区,如果需要.这种尺寸适用于所有方法,但由于我的数据集大小不同,因此绝对不是最理想的.
数据是时间序列数据,但不幸的是不是定期的,我过去曾经按时间频率重新分配,但由于数据的不规则性(这有时几分钟没有数千秒),这将是次优的.
我如何在dask数据帧上重命名索引?我试过这样
df.index.name = 'foo'
Run Code Online (Sandbox Code Playgroud)
但重新检查df.index.name表明它仍然是以前的状态.