相关疑难解决方法(0)

将Jar添加到独立的pyspark

我正在推出一个pyspark计划:

$ export SPARK_HOME=
$ export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.9-src.zip
$ python
Run Code Online (Sandbox Code Playgroud)

和py代码:

from pyspark import SparkContext, SparkConf

SparkConf().setAppName("Example").setMaster("local[2]")
sc = SparkContext(conf=conf)
Run Code Online (Sandbox Code Playgroud)

如何添加jar依赖项,例如Databricks csv jar?使用命令行,我可以像这样添加包:

$ pyspark/spark-submit --packages com.databricks:spark-csv_2.10:1.3.0 
Run Code Online (Sandbox Code Playgroud)

但我没有使用任何这些.该程序是一个更大的工作流程的一部分,没有使用spark-submit我应该能够运行我的./foo.py程序,它应该工作.

  • 我知道你可以设置extraClassPath的spark属性,但你必须将JAR文件复制到每个节点?
  • 尝试了conf.set("spark.jars","jar1,jar2"),它们对py4j CNF异常也不起作用

python apache-spark pyspark

16
推荐指数
3
解决办法
2万
查看次数

标签 统计

apache-spark ×1

pyspark ×1

python ×1