懒惰地从 PostgreSQL / Cassandra 创建 Dask DataFrame

Skl*_*vit 6 python postgresql cassandra dataframe dask

据我了解,Dask DataFrame 是处理表格数据的正确方法。我在 PostgreSQL 中有一个表,我知道如何将它加载到pandas.Dataframe.

我知道,odo可用于转换pandas.DataFrame为 dask.dataframe。但这不是懒惰的操作:这种转换强制将整个 PostgeSQL 表加载到内存中,这很糟糕。我更喜欢一个一个或一个块地阅读项目。这该怎么做?

  1. 卡桑德拉的类似问题。但是 Cassandra 就像分布式存储,可以针对分布式访问进行优化。但是如何用 Dask 做到这一点?

Skl*_*vit 0

至于MongoDB,我创建了以下解决方案: https://gist.github.com/Sklavit/747e292fc17f6c9b400470006ff1c567

主要思想是创建一个目标名称包,然后将这些参数传递给加载程序。