Apache Spark:如何在Python 3中使用pyspark

tch*_*rty 79 python python-3.x apache-spark

我从GH开发大师那里构建了Spark 1.4,并且构建很顺利.但是当我这样做时,bin/pyspark我得到了Python 2.7.9版本.我怎么能改变这个?

Rti*_*k88 118

只需设置环境变量:

export PYSPARK_PYTHON=python3

如果您希望将其作为永久性更改,请将此行添加到pyspark脚本中.

  • 最好将它添加到 `$SPARK_HOME/conf/spark-env.sh` 以便 `spark-submit` 也使用相同的解释器。 (5认同)

Pio*_*dal 28

PYSPARK_PYTHON=python3 
./bin/pyspark
Run Code Online (Sandbox Code Playgroud)

如果你想在IPython Notebook中运行,请写:

PYSPARK_PYTHON=python3 
PYSPARK_DRIVER_PYTHON=ipython 
PYSPARK_DRIVER_PYTHON_OPTS="notebook" 
./bin/pyspark
Run Code Online (Sandbox Code Playgroud)

如果python3无法访问,则需要将路径传递给它.

请记住,当前的文档(从1.4.1开始)已经过时了.幸运的是,它已被修补.


小智 9

1,编辑个人资料:vim ~/.profile

2,将代码添加到文件中: export PYSPARK_PYTHON=python3

3,执行命令: source ~/.profile

4, ./bin/pyspark


rfk*_*aas 4

查看该文件。shebang 行可能指向“env”二进制文件,该二进制文件搜索第一个兼容可执行文件的路径。

你可以把python改成python3。更改环境以直接使用硬编码的 python3 二进制文件。或者直接使用 python3 执行二进制文件并省略 shebang 行。