vva*_*vva 7 pandas pyspark dask dask-distributed
有没有办法直接将 Spark 数据帧转换为 Dask 数据帧?
我目前正在使用 Spark 的 .toPandas()函数将其转换为 pandas 数据帧,然后转换为 dask 数据帧。我相信这是低效的操作,并且没有利用dask的分布式处理能力,因为pandas永远是瓶颈。
我也许能够为您提供一个有效的答案,涉及从每个 dask 工作人员调用 pyspark,但首先我应该指出,保存到 parquet 并加载结果可能是您可以使用的最快、最简单的方法。