有没有办法直接将 Spark 数据帧转换为 Dask 数据帧?
我目前正在使用 Spark 的 .toPandas()函数将其转换为 pandas 数据帧,然后转换为 dask 数据帧。我相信这是低效的操作,并且没有利用dask的分布式处理能力,因为pandas永远是瓶颈。
pandas pyspark dask dask-distributed
dask ×1
dask-distributed ×1
pandas ×1
pyspark ×1