不能使用dask删除列或切片数据帧?

chr*_*sfs 7 dask

我试图使用dask而不是pandas,因为我有2.6gb的csv文件.我加载它,我想删除一列.但似乎drop方法df.drop('column')或切片df [:,: - 1]

已实施.是这种情况还是我错过了什么?

MRo*_*lin 9

我们drop这个PR中实现了这个方法.这可以从dask 0.7.0开始提供.

In [1]: import pandas as pd

In [2]: df = pd.DataFrame({'x': [1, 2, 3], 'y': [3, 2, 1]})

In [3]: import dask.dataframe as dd

In [4]: ddf = dd.from_pandas(df, npartitions=2)

In [5]: ddf.drop('y', axis=1).compute()
Out[5]: 
   x
0  1
1  2
2  3
Run Code Online (Sandbox Code Playgroud)

以前人们也可以使用列名称切片; 虽然如果你有很多专栏,这当然不那么吸引人了.

In [6]: ddf[['x']].compute()
Out[6]: 
   x
0  1
1  2
2  3
Run Code Online (Sandbox Code Playgroud)