Jay*_*dog 8 python csv dataframe dask
使用Python Pandas读取CSV时,可以指定索引列.读取文件时是否可以使用Python Dask,而不是之后设置索引?
例如,使用pandas:
df = pandas.read_csv(filename, index_col=0)
Run Code Online (Sandbox Code Playgroud)
理想情况下使用dask可能是这样的:
df = dask.dataframe.read_csv(filename, index_col=0)
Run Code Online (Sandbox Code Playgroud)
我试过了
df = dask.dataframe.read_csv(filename).set_index(?)
Run Code Online (Sandbox Code Playgroud)
但索引列没有名称(这似乎很慢).
不,这些必须是两种独立的方法。如果您尝试这样做,那么Dask会在一个不错的错误消息中告诉您。
In [1]: import dask.dataframe as dd
In [2]: df = dd.read_csv('*.csv', index='my-index')
ValueError: Keyword 'index' not supported dd.read_csv(...).set_index('my-index') instead
Run Code Online (Sandbox Code Playgroud)
但这不会比其他方法慢或快。
| 归档时间: |
|
| 查看次数: |
2508 次 |
| 最近记录: |