pyspark可通过pypi.
因此,所有你需要安装pyspark的pip,并执行以下命令。
pip install pyspark 或者 sudo pip install pyspark
pyspark 是一个 Python 绑定到用 Scala 编写的 spark 程序。
只要您拥有 Java 6+ 和 Python 2.6+,您就可以从下载页面下载 Spark 的预构建二进制文件。确保java和python程序在您的上PATH或JAVA_HOME环境变量已设置。按照以下步骤开始;
解压并将解压后的目录移动到工作目录:
tar -xzf spark-1.4.0-bin-hadoop2.6.tgz
mv spark-1.4.0-bin-hadoop2.6 /srv/spark-1.4.8
将 Spark 版本符号链接到一个spark目录:
ln -s /srv/spark-1.4.8 /srv/spark
编辑~/.bash_profile使用文本编辑器,并添加Spark到您PATH,并设置SPARK_HOME环境变量:
export SPARK_HOME=/srv/spark
export PATH=$SPARK_HOME/bin:$PATH
现在您应该能够通过pyspark在终端中运行命令来执行 pyspark 。
一些参考:
https://spark.apache.org/docs/0.9.0/python-programming-guide.html
https://districtdatalabs.silvrback.com/getting-started-with-spark-in-python
| 归档时间: |
|
| 查看次数: |
26240 次 |
| 最近记录: |