far*_*awa 12 python anaconda apache-spark pyspark
我正在尝试导入和使用pyspark
anaconda.
安装spark后,设置$SPARK_HOME
我试过的变量:
$ pip install pyspark
Run Code Online (Sandbox Code Playgroud)
因为我发现,我需要电话蟒蛇寻找这不会(当然)工作pyspark
下$SPARK_HOME/python/
.问题是要做到这一点,我需要设置$PYTHONPATH
while anaconda不使用该环境变量.
我试图复制内容$SPARK_HOME/python/
到ANACONDA_HOME/lib/python2.7/site-packages/
,但它不会工作.
在anaconda中使用pyspark有什么解决方案吗?
您可以简单地设置PYSPARK_DRIVER_PYTHON
和PYSPARK_PYTHON
使用环境变量来使用根Anaconda Python或特定的Anaconda环境.例如:
export ANACONDA_ROOT=~/anaconda2
export PYSPARK_DRIVER_PYTHON=$ANACONDA_ROOT/bin/ipython
export PYSPARK_PYTHON=$ANACONDA_ROOT/bin/python
Run Code Online (Sandbox Code Playgroud)
要么
export PYSPARK_DRIVER_PYTHON=$ANACONDA_ROOT/envs/foo/bin/ipython
export PYSPARK_PYTHON=$ANACONDA_ROOT/envs/foo/bin/python
Run Code Online (Sandbox Code Playgroud)
当您使用$SPARK_HOME/bin/pyspark
/ $SPARK_HOME/bin/spark-submit
它将选择一个正确的环境.请记住,PySpark必须在所有机器上使用相同的Python版本.
在侧面注意使用PYTHONPATH
应该工作得很好,即使不建议.
小智 5
这可能直到最近才成为可能,但是我使用了以下内容,并且效果很好。在此之后,我能够“将pyspark作为ps导入”并可以毫无问题地使用它。
conda install -c conda-forge pyspark