如何使用“loc”在 dask 中选择数据框的列

use*_*918 5 python distributed dataframe pandas dask

任何人都可以告诉我如何使用 dask 在数据框中选择带有“loc”的一列?

作为旁注,当我使用 dd.read_csv 加载数据帧时,标题等于“None”,列名称从零开始到 131094。我即将选择列名称为 131094 的最后一列,我得到错误。

代码:

> import dask.dataframe as dd
> df = dd.read_csv('filename.csv', header=None)
> y = df.loc['131094']
Run Code Online (Sandbox Code Playgroud)

错误:

文件“/usr/local/dask-2018-08-22/lib/python2.7/site-packages/dask-0.5.0-py2.7.egg/dask/dataframe/core.py”,第180行,位于_loc“无法在没有已知分区的情况下在 DataFrame 上使用 loc”)ValueError:无法在没有已知分区的情况下在 DataFrame 上使用 loc

根据此指南http://dask.pydata.org/en/latest/dataframe-indexing.html#positional-indexing,我的代码应该可以正常工作,但不知道是什么导致了问题。

use*_*828 0

我在虚拟 csv 上尝试了这个,它起作用了。如果没有看到给您带来问题的文件,我无法确定为您提供帮助。也就是说,您可能选择的是行,而不是列。

相反,试试这个。

import dask.dataframe as dd
df = dd.read_csv('filename.csv', header=None)
y = df[df.columns[-1]]
Run Code Online (Sandbox Code Playgroud)