小编Nen*_* M.的帖子

Dask 计算速度很慢

我有一个包含 500 万条记录的数据框。我试图通过利用 python 中的 dask 数据帧使用下面的代码来处理它

 import dask.dataframe as dd                                          
 dask_df = dd.read_csv(fullPath)
 ............
 for index , row in uniqueURLs.iterrows():
   print(index);
   results = dask_df[dask_df['URL'] == row['URL']]
   count = results.size.compute();

Run Code Online (Sandbox Code Playgroud)

但我注意到 dask 在过滤数据帧方面非常有效，但不是在 .compute() 中。因此，如果我删除了计算结果大小的行，我的程序就会变得非常快。有人可以解释一下吗？我怎样才能让它更快？

python performance python-3.x dask dask-distributed

Nen*_* M.

2021 04-11

4
推荐指数

1
解决办法

3205
查看次数