我是使用Dask和Numba加速代码的新手,我希望这对用户来说是一个有价值的问题,可以帮助他们获得有关如何并行化代码的最佳实践的答案。我已经制作了一个包含 3 列的数据框的通用测试用例pandas。
将在框架中的 3 个向量上实现通用函数,以表示数据分析中可能进行的转换类型:前两列进行平方、相加,然后取平方根,然后是布尔值将结果与第三列进行比较计算。
我实现了 4 个测试用例:(a) a pandasapply、(b) Dask、(c)Numba和 (d)Dask以及Numba在一起。
Numba效果很好。我所有的问题都与Dask. 以下是我遇到的问题:
Dask,无论我制作什么大小的向量,都会更慢。我可能不完全理解如何以及何时计算数据帧的某些部分,或者如何使其正确并行化。它比常规申请慢。# Practice parallelizing
from dask import dataframe as dd
from numba import jit
import pandas as pd
import numpy as np
import time
# df is going to be the regular dataframe
df = pd.DataFrame(np.random.random(size=(1000000,3))*100,columns=['col1','col2','col3'])
# ddf is the dask dataframe …Run Code Online (Sandbox Code Playgroud)