为什么Apache-Spark - Python在本地与熊猫相比如此之慢?

Raj*_*Raj 25 python pandas apache-spark apache-spark-sql pyspark

这里有一个火花新手.我最近开始使用该命令在我的本地计算机上使用两个核心来玩火花.

pyspark - 本地大师[2]

我有一个393 Mb的文本文件,有近百万行.我想执行一些数据操作操作.我正在使用Pyspark的内置Dataframe函数来执行简单的操作,如groupBy,sum,max.STDDEV.

无论如何,当我在完全相同的数据集上对熊猫进行完全相同的操作时,大熊猫似乎在延迟方面以极大的差距击败了pyspark.

我想知道这可能是什么原因.我有几个想法.

  1. 内置函数是否低效地执行序列化/反序列化过程?如果是,那么它们的替代品是什么?
  2. 数据集是否太小,以至于无法超过运行spark的基础JVM的开销成本?

谢谢你的期待.非常感激

小智 41

因为:

你可以这样长时间继续...