为什么Apache-Spark - Python在本地与熊猫相比如此之慢？

Raj*_*Raj 25 python pandas apache-spark apache-spark-sql pyspark

这里有一个火花新手.我最近开始使用该命令在我的本地计算机上使用两个核心来玩火花.

pyspark - 本地大师[2]

我有一个393 Mb的文本文件,有近百万行.我想执行一些数据操作操作.我正在使用Pyspark的内置Dataframe函数来执行简单的操作,如groupBy,sum,max.STDDEV.

无论如何,当我在完全相同的数据集上对熊猫进行完全相同的操作时,大熊猫似乎在延迟方面以极大的差距击败了pyspark.

我想知道这可能是什么原因.我有几个想法.

内置函数是否低效地执行序列化/反序列化过程？如果是,那么它们的替代品是什么？
数据集是否太小,以至于无法超过运行spark的基础JVM的开销成本？

谢谢你的期待.非常感激

因为:

Apache Spark是一个复杂的框架,旨在将处理分布在数百个节点上,同时确保正确性和容错性.每种属性都有很高的成本.
因为纯粹的内存内核处理(Pandas)比磁盘和网络(甚至是本地)I/O(Spark)快几个数量级.
因为并行性(和分布式处理)会增加显着的开销,即使具有最佳(令人尴尬的并行工作负载)也不能保证任何性能改进.
因为本地模式不是为性能而设计的.它用于测试.
最后但同样重要的是 - 在393MB上运行的2个核心不足以看到任何性能改进,单个节点不提供任何分发机会
还有Spark:核心数量不一致的性能数量,为什么pyspark在查找列的最大值时要慢得多？,为什么我的星火跑的比纯Python慢？性能比较

你可以这样长时间继续...

归档时间：	7 年，8 月前
查看次数：	3735 次
最近记录：	6 年，6 月前

Spark:扩展核心数量时的性能数量不一致 10

为什么我的Spark运行速度比纯Python慢？性能比较 8

更多相关链接

_tkinter.TclError:没有显示名称,也没有$ DISPLAY环境变量 163

python中的无缓冲的stdout(如在python -u中)来自程序内部 53

什么静态类型的语言类似于Python？ 46

Pandas groupby与bin计数 26

DataFrame构造函数没有正确调用!错误 22

重新采样多索引DataFrame 7

Spark应用程序无法写入在docker中运行的elasticsearch集群 6

将pandas.TimeSeries转换为R.ts 5

如何检测熊猫的上升和下降趋势？ 5

为什么从数据框中检索单行作为字典而不是系列？ 5

'git pull'和'git fetch'有什么区别？ 11447

如何使用正则表达式验证电子邮件地址？ 3201

可以(a == 1 && a == 2 && a == 3)评估为真吗？ 2438

运算符重载的基本规则和习惯用法是什么？ 2074

单身人士有什么不好的？ 1931

是否有快速Git命令来查看旧版本的文件？ 1438

如何确定Python变量的类型？ 1437

如何删除文本/输入框周围的边框(轮廓)？(铬) 1208

jQuery从下拉列表中获取选定的选项 1067

测量Python中经过的时间？ 1031