Zer*_*ack 2 python pandas dask feather
对于一个包含许多.feather文件的文件夹,我想将它们全部加载到 python 中的 dask 中。
到目前为止,我已经尝试了以下来自 GitHub https://github.com/dask/dask/issues/1277上类似问题的内容
files = [...]
dfs = [dask.delayed(feather.read_dataframe)(f) for f in files]
df = dd.concat(dfs)
Run Code Online (Sandbox Code Playgroud)
不幸的是,这给了我TypeError: Truth of Delayed objects is not supported那里提到的错误 ,但解决方法尚不清楚。
是否可以在 dask 中执行上述操作?
而不是concat, 对数据帧进行操作,您想使用from_delayed,它将延迟对象列表(每个对象代表一个数据帧)转换为单个逻辑数据帧
dfs = [dask.delayed(feather.read_dataframe)(f) for f in files]
df = dd.from_delayed(dfs)
Run Code Online (Sandbox Code Playgroud)
如果可能,您还应该提供meta=(零长度数据帧,描述列、索引和数据类型)和divisions=(沿分区索引的边界值)kwargs。
| 归档时间: |
|
| 查看次数: |
809 次 |
| 最近记录: |