如何在anaconda中导入pyspark

far*_*awa 12 python anaconda apache-spark pyspark

我正在尝试导入和使用pysparkanaconda.

安装spark后,设置$SPARK_HOME我试过的变量:

$ pip install pyspark
Run Code Online (Sandbox Code Playgroud)

因为我发现,我需要电话蟒蛇寻找这不会(当然)工作pyspark$SPARK_HOME/python/.问题是要做到这一点,我需要设置$PYTHONPATHwhile anaconda不使用该环境变量.

我试图复制内容$SPARK_HOME/python/ANACONDA_HOME/lib/python2.7/site-packages/,但它不会工作.

在anaconda中使用pyspark有什么解决方案吗?

zer*_*323 9

您可以简单地设置PYSPARK_DRIVER_PYTHONPYSPARK_PYTHON使用环境变量来使用根Anaconda Python或特定的Anaconda环境.例如:

export ANACONDA_ROOT=~/anaconda2
export PYSPARK_DRIVER_PYTHON=$ANACONDA_ROOT/bin/ipython
export PYSPARK_PYTHON=$ANACONDA_ROOT/bin/python
Run Code Online (Sandbox Code Playgroud)

要么

export PYSPARK_DRIVER_PYTHON=$ANACONDA_ROOT/envs/foo/bin/ipython 
export PYSPARK_PYTHON=$ANACONDA_ROOT/envs/foo/bin/python 
Run Code Online (Sandbox Code Playgroud)

当您使用$SPARK_HOME/bin/pyspark/ $SPARK_HOME/bin/spark-submit 它将选择一个正确的环境.请记住,PySpark必须在所有机器上使用相同的Python版本.

在侧面注意使用PYTHONPATH应该工作得很好,即使不建议.

  • 这不是一个非常精确的描述......究竟什么都行不通.什么不起作用.只是为了记录 - 使用'PYTHONPATH`应该可以正常工作.这是不推荐的. (2认同)

小智 5

这可能直到最近才成为可能,但是我使用了以下内容,并且效果很好。在此之后,我能够“将pyspark作为ps导入”并可以毫无问题地使用它。

conda install -c conda-forge pyspark

  • 令人惊奇的是,在过去的两年里,conda-forge 让以前需要 3 天的事情只需 30 秒就能完成。 (2认同)