小编oxy*_*ron的帖子

dask DataFrame.assign炸毁了dask图

所以我有一个dask DataFrame.append的问题.我从主数据中生成了许多衍生特性,并将它们附加到主数据框中.之后,任何一组列的dask图表都会被炸毁.这是一个小例子:

%pylab inline
import numpy as np
import pandas as pd
import dask.dataframe as dd
from dask.dot import dot_graph

df=pd.DataFrame({'x%s'%i:np.random.rand(20) for i in range(5)})
ddf = dd.from_pandas(df, npartitions=2)

dot_graph(ddf['x0'].dask)
Run Code Online (Sandbox Code Playgroud)

这是预期的dask图

g=ddf.assign(y=ddf['x0']+ddf['x1'])
dot_graph(g['x0'].dask)
Run Code Online (Sandbox Code Playgroud)

这里同一列的图表以不相关的计算方式展开

想象一下,我有很多产生的列.因此,任何特定列的计算图包括所有其他列的无关计算.即在我的情况下,我有len(ddf ['someColumn'].dask)> 100000.因此很快就会无法使用.

所以我的问题是这个问题可以解决吗?有没有现成的方法呢?如果不是 - 我应该朝哪个方向实施这个目标?

谢谢!

python optimization dataframe assign dask

2
推荐指数
1
解决办法
238
查看次数

标签 统计

assign ×1

dask ×1

dataframe ×1

optimization ×1

python ×1