我试图使用dask而不是pandas,因为我有2.6gb的csv文件.我加载它,我想删除一列.但似乎drop方法df.drop('column')或切片df [:,: - 1]
已实施.是这种情况还是我错过了什么?
我们drop在这个PR中实现了这个方法.这可以从dask 0.7.0开始提供.
In [1]: import pandas as pd
In [2]: df = pd.DataFrame({'x': [1, 2, 3], 'y': [3, 2, 1]})
In [3]: import dask.dataframe as dd
In [4]: ddf = dd.from_pandas(df, npartitions=2)
In [5]: ddf.drop('y', axis=1).compute()
Out[5]:
x
0 1
1 2
2 3
Run Code Online (Sandbox Code Playgroud)
以前人们也可以使用列名称切片; 虽然如果你有很多专栏,这当然不那么吸引人了.
In [6]: ddf[['x']].compute()
Out[6]:
x
0 1
1 2
2 3
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
2632 次 |
| 最近记录: |