如何使用“loc”在 dask 中选择数据框的列

Question

如何使用“loc”在 dask 中选择数据框的列

use*_*918 5 python distributed dataframe pandas dask

任何人都可以告诉我如何使用 dask 在数据框中选择带有“loc”的一列？

作为旁注，当我使用 dd.read_csv 加载数据帧时，标题等于“None”，列名称从零开始到 131094。我即将选择列名称为 131094 的最后一列，我得到错误。

代码：

> import dask.dataframe as dd
> df = dd.read_csv('filename.csv', header=None)
> y = df.loc['131094']

Run Code Online (Sandbox Code Playgroud)

错误：

文件“/usr/local/dask-2018-08-22/lib/python2.7/site-packages/dask-0.5.0-py2.7.egg/dask/dataframe/core.py”，第180行，位于_loc“无法在没有已知分区的情况下在 DataFrame 上使用 loc”）ValueError：无法在没有已知分区的情况下在 DataFrame 上使用 loc

根据此指南http://dask.pydata.org/en/latest/dataframe-indexing.html#positional-indexing，我的代码应该可以正常工作，但不知道是什么导致了问题。

Answer 1

use*_*828 0

我在虚拟 csv 上尝试了这个，它起作用了。如果没有看到给您带来问题的文件，我无法确定为您提供帮助。也就是说，您可能选择的是行，而不是列。

相反，试试这个。

import dask.dataframe as dd
df = dd.read_csv('filename.csv', header=None)
y = df[df.columns[-1]]

Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年，5 月前
查看次数：	3089 次
最近记录：	7 年，3 月前