相关疑难解决方法(0)

在python shell中导入pyspark

这是另一个从未回答过的论坛上的别人问题的副本,所以我想我会在这里重新提问,因为我有同样的问题.(见http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736)

我在我的机器上正确安装了Spark,并且当使用./bin/pyspark作为我的python解释器时,能够使用pyspark模块运行python程序而不会出错.

但是,当我尝试运行常规Python shell时,当我尝试导入pyspark模块时,我收到此错误:

from pyspark import SparkContext
Run Code Online (Sandbox Code Playgroud)

它说

"No module named pyspark".
Run Code Online (Sandbox Code Playgroud)

我怎样才能解决这个问题?是否需要设置环境变量以将Python指向pyspark headers/libraries/etc. 如果我的火花安装是/ spark /,我需要包含哪些pyspark路径?或者pyspark程序只能从pyspark解释器运行?

python apache-spark pyspark

102
推荐指数
11
解决办法
14万
查看次数

如何安装pyspark以在独立脚本中使用?

我正在尝试使用Spark和Python.我从下载页面安装了Spark 1.0.2 for Hadoop 2二进制发行版.我可以在Python交互模式中运行快速入门示例,但现在我想编写一个使用Spark的独立Python脚本.该快速启动文件说只进口pyspark,但这并不工作,因为这不是我的PYTHONPATH.

我可以运行bin/pyspark并看到模块安装在下面SPARK_DIR/python/pyspark.我可以手动将其添加到我的PYTHONPATH环境变量中,但我想知道首选的自动方法.

添加pyspark对独立脚本的支持的最佳方法是什么?我没有setup.py在Spark安装目录下看到任何地方.我如何为依赖Spark的Python脚本创建一个pip包?

python apache-spark

36
推荐指数
4
解决办法
5万
查看次数

Pyspark附加执行程序环境变量

是否有可能在火花中向工人的PYTHONPATH追加一个值?

我知道可以去每个工作节点,配置spark-env.sh文件并执行它,但我想要一个更灵活的方法

我试图使用setExecutorEnv方法,但没有成功

conf = SparkConf().setMaster("spark://192.168.10.11:7077")\
              .setAppName(''myname')\
              .set("spark.cassandra.connection.host", "192.168.10.11") /
              .setExecutorEnv('PYTHONPATH', '$PYTHONPATH:/custom_dir_that_I_want_to_append/')
Run Code Online (Sandbox Code Playgroud)

它在每个执行程序上创建一个pythonpath env.variable,强制它为lower_case,并且不解释$ PYTHONPATH命令以追加该值.

我最终得到了两个不同的env.variables,

pythonpath  :  $PYTHONPATH:/custom_dir_that_I_want_to_append
PYTHONPATH  :  /old/path/to_python
Run Code Online (Sandbox Code Playgroud)

第一个是动态创建的,第二个之前已经存在过.

有谁知道怎么做?

pythonpath apache-spark pyspark

5
推荐指数
1
解决办法
1875
查看次数

标签 统计

apache-spark ×3

pyspark ×2

python ×2

pythonpath ×1