将 Spark 数据帧转换为 dask 数据帧

vva*_*vva 7 pandas pyspark dask dask-distributed

有没有办法直接将 Spark 数据帧转换为 Dask 数据帧?

我目前正在使用 Spark 的 .toPandas()函数将其转换为 pandas 数据帧,然后转换为 dask 数据帧。我相信这是低效的操作,并且没有利用dask的分布式处理能力,因为pandas永远是瓶颈。

mdu*_*ant 1

我也许能够为您提供一个有效的答案,涉及从每个 dask 工作人员调用 pyspark,但首先我应该指出,保存到 parquet 并加载结果可能是您可以使用的最快、最简单的方法。

  • 如果数据已经在parquet中,直接用dask加载吗? (5认同)