通过读取Python的dask模块中的pickle文件来创建dask数据帧

Sat*_*tya 3 python dask

当我试图通过读取pickle文件创建一个dask数据帧时,我得到一个错误

import dask.dataframe as dd
ds_df = dd.read_pickle("D:\test.pickle")

AttributeError: 'module' object has no attribute 'read_pickle'

but  it works fine with read_csv
Run Code Online (Sandbox Code Playgroud)

在熊猫中它像往常一样成功.

所以请纠正我,如果我在那里做错了什么或在dask我们无法通过阅读pickle文件来创建数据帧.

MRo*_*lin 8

请注意,dask.dataframe不能完全实现Pandas.你不应该期望每个pandas操作在dask.dataframe中都有模拟.

我们没有选择从pickle文件中实现读取,特别是因为没有办法只读取部分pickle文件; 一切都被立即转移到内存中.因此,当从磁盘一块一块地读取大数据集时,pickle文件没有多大价值.

如果您只是寻找并行性,那么我建议pandas.read_pickle一起使用dask.dataframe.from_pandas

df = pd.read_pickle(...)
ddf = dd.from_pandas(df, npartitions=8)
Run Code Online (Sandbox Code Playgroud)