Spark 安装中的 Pyspark VS Pyspark python 包

JYB*_*LTN 7 apache-spark apache-spark-sql pyspark

我刚刚开始学习spark,我对这个概念有点困惑,所以从spark安装中,我们在spark安装子文件夹下得到pyspark,我理解它是一个shell,从python包中我们也可以通过 pip install pyspark 安装 python 包,这样我们就可以运行 python 代码而不是提交到集群,那么这两者有什么区别呢?同样在anaconda中,我们可以使用findspark并使用那里的pyspark,那么这是否意味着它没有使用python包中的pyspark?

再加上现实世界中的spark应用程序开发,是在什么场景下使用的?提前致谢 。

小智 0

在较低版本的 Spark 中,version 2.2您需要先安装 Spark,然后再执行一些步骤。但在更高版本pip install pyspark就足够了。