如何在 Ubuntu 上获得 pyspark?

1 software-installation

我可以通过软件中心获得 Spark,但我如何获得 pyspark?

let*_*ite 6

pyspark可通过pypi.

因此,所有你需要安装pysparkpip,并执行以下命令。

pip install pyspark 或者 sudo pip install pyspark


Ron*_*Ron 5

pyspark 是一个 Python 绑定到用 Scala 编写的 spark 程序。

只要您拥有 Java 6+ 和 Python 2.6+,您就可以从下载页面下载 Spark 的预构建二进制文件。确保javapython程序在您的上PATHJAVA_HOME环境变量已设置。按照以下步骤开始;

  1. 解压并将解压后的目录移动到工作目录:

    tar -xzf spark-1.4.0-bin-hadoop2.6.tgz

    mv spark-1.4.0-bin-hadoop2.6 /srv/spark-1.4.8

  2. 将 Spark 版本符号链接到一个spark目录:

    ln -s /srv/spark-1.4.8 /srv/spark

  3. 编辑~/.bash_profile使用文本编辑器,并添加Spark到您PATH,并设置SPARK_HOME环境变量:

    export SPARK_HOME=/srv/spark

    export PATH=$SPARK_HOME/bin:$PATH

现在您应该能够通过pyspark在终端中运行命令来执行 pyspark 。

一些参考:

https://spark.apache.org/docs/0.9.0/python-programming-guide.html

https://districtdatalabs.silvrback.com/getting-started-with-spark-in-python