use*_*918 5 python distributed dataframe pandas dask
任何人都可以告诉我如何使用 dask 在数据框中选择带有“loc”的一列?
作为旁注,当我使用 dd.read_csv 加载数据帧时,标题等于“None”,列名称从零开始到 131094。我即将选择列名称为 131094 的最后一列,我得到错误。
代码:
> import dask.dataframe as dd
> df = dd.read_csv('filename.csv', header=None)
> y = df.loc['131094']
Run Code Online (Sandbox Code Playgroud)
错误:
文件“/usr/local/dask-2018-08-22/lib/python2.7/site-packages/dask-0.5.0-py2.7.egg/dask/dataframe/core.py”,第180行,位于_loc“无法在没有已知分区的情况下在 DataFrame 上使用 loc”)ValueError:无法在没有已知分区的情况下在 DataFrame 上使用 loc
根据此指南http://dask.pydata.org/en/latest/dataframe-indexing.html#positional-indexing,我的代码应该可以正常工作,但不知道是什么导致了问题。
我在虚拟 csv 上尝试了这个,它起作用了。如果没有看到给您带来问题的文件,我无法确定为您提供帮助。也就是说,您可能选择的是行,而不是列。
相反,试试这个。
import dask.dataframe as dd
df = dd.read_csv('filename.csv', header=None)
y = df[df.columns[-1]]
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
3089 次 |
| 最近记录: |