Arc*_*ast 8 python pandas dask
运行以下代码时,dask.dataframe.head()的结果取决于npartitions:
import dask.dataframe as dd
import pandas as pd
df = pd.DataFrame({'A': [1,2,3], 'B': [2,3,4]})
ddf = dd.from_pandas(df, npartitions = 3)
print(ddf.head())
Run Code Online (Sandbox Code Playgroud)
这产生以下结果:
A B
0 1 2
Run Code Online (Sandbox Code Playgroud)
但是,当我将npartitions设置为1或2时,我得到了预期的结果:
A B
0 1 2
1 2 3
2 3 4
Run Code Online (Sandbox Code Playgroud)
似乎重要的是,npartition低于数据帧的长度.这是有意的吗?在将数据转换为dask框架之前,我是否总是必须检查数据的大小?