相关疑难解决方法(0)

在python shell中导入pyspark

这是另一个从未回答过的论坛上的别人问题的副本,所以我想我会在这里重新提问,因为我有同样的问题.(见http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736)

我在我的机器上正确安装了Spark,并且当使用./bin/pyspark作为我的python解释器时,能够使用pyspark模块运行python程序而不会出错.

但是,当我尝试运行常规Python shell时,当我尝试导入pyspark模块时,我收到此错误:

from pyspark import SparkContext
Run Code Online (Sandbox Code Playgroud)

它说

"No module named pyspark".
Run Code Online (Sandbox Code Playgroud)

我怎样才能解决这个问题?是否需要设置环境变量以将Python指向pyspark headers/libraries/etc. 如果我的火花安装是/ spark /,我需要包含哪些pyspark路径?或者pyspark程序只能从pyspark解释器运行?

python apache-spark pyspark

102
推荐指数
11
解决办法
14万
查看次数

将"SPARK_HOME"设置为什么?

安装了apache-maven-3.3.3,scala 2.11.6,然后运行:

$ git clone git://github.com/apache/spark.git -b branch-1.4
$ cd spark
$ build/mvn -DskipTests clean package
Run Code Online (Sandbox Code Playgroud)

最后:

$ git clone https://github.com/apache/incubator-zeppelin
$ cd incubator-zeppelin/
$ mvn install -DskipTests
Run Code Online (Sandbox Code Playgroud)

然后运行服务器:

$ bin/zeppelin-daemon.sh start
Run Code Online (Sandbox Code Playgroud)

从一开始运行一个简单的笔记本%pyspark,我得到一个关于py4j找不到的错误.刚做过pip install py4j(参考).

现在我收到这个错误:

pyspark is not responding Traceback (most recent call last):
  File "/tmp/zeppelin_pyspark.py", line 22, in <module>
    from pyspark.conf import SparkConf
ImportError: No module named pyspark.conf
Run Code Online (Sandbox Code Playgroud)

我已经尝试过设置SPARK_HOME:/spark/python:/spark/python/lib.没变.

python pythonpath apache-spark pyspark apache-zeppelin

21
推荐指数
1
解决办法
3万
查看次数

像Spyder一样运行PySpark和IDE?

我可以从终端线运行PySpark,一切正常.

~/spark-1.0.0-bin-hadoop1/bin$ ./pyspark
Run Code Online (Sandbox Code Playgroud)

欢迎来到

      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 1.0.0
      /_/

使用Python 2.7.6版(默认,2014年5月27日14:50:58)

但是当我在Python IDE上尝试这个时

import pyspark
Run Code Online (Sandbox Code Playgroud)

ImportError:没有名为pyspark的模块

如何导入它像其他Python库如numpy,scikit等?

在终端工作正常,我只想在IDE中工作.

python-2.7 apache-spark

12
推荐指数
2
解决办法
2万
查看次数

无法导入 SparkContext

我正在 CentOS 上工作,我已经设置$SPARK_HOME并添加了binin的路径$PATH

我可以pyspark从任何地方逃跑。

但是当我尝试创建python文件并使用此语句时;

from pyspark import SparkConf, SparkContext
Run Code Online (Sandbox Code Playgroud)

它抛出以下错误

python pysparktask.py
    Traceback (most recent call last):
    File "pysparktask.py", line 1, in <module>
      from pyspark import SparkConf, SparkContext
    ModuleNotFoundError: No module named 'pyspark'
Run Code Online (Sandbox Code Playgroud)

我尝试使用 再次安装它pip

pip install pyspark
Run Code Online (Sandbox Code Playgroud)

它也给出了这个错误。

找不到满足 pyspark 要求的版本(来自版本:)没有找到 pyspark 的匹配发行版

编辑

根据答案,我更新了代码。

错误是

Traceback (most recent call last):
  File "pysparktask.py", line 6, in <module>
    from pyspark import SparkConf, SparkContext
  File "/opt/mapr/spark/spark-2.0.1/python/pyspark/__init__.py", line 44, …
Run Code Online (Sandbox Code Playgroud)

python mapr apache-spark pyspark

2
推荐指数
1
解决办法
1万
查看次数