如何在PySpark中运行脚本

Dan*_*uez 23 python apache-spark pyspark

我正在尝试在pyspark环境中运行脚本,但到目前为止我还没有能够.我如何在pyspark中运行像python script.py这样的脚本?谢谢

Ula*_*les 29

你可以做: ./bin/spark-submit mypythonfile.py

pyspark从Spark 2.0开始,不支持运行python应用程序.

  • @DanielRodríguez 应该是一样的。您下载的 spark 文件夹应该有一个 `spark-submit` 文件 (2认同)
  • 它告诉我 'sc' 没有定义,当我在打开 pyspark 后运行 spark-submit 时它会抛出一个无效的语法错误 (2认同)
  • 听起来您还没有使用 SparkContext() 初始化“sc”变量。看看这个页面,如果你还没有这样做 https://spark.apache.org/docs/0.9.0/python-programming-guide.html。如果不查看代码,很难判断您可能做错了什么。 (2认同)

Jus*_*ala 21

pyspark 2.0及更高版本在环境变量中执行脚本文件PYTHONSTARTUP,因此您可以运行:

PYTHONSTARTUP=code.py pyspark
Run Code Online (Sandbox Code Playgroud)

spark-submit回答相比,这对于在使用交互式pyspark shell之前运行初始化代码很有用.

  • 我不明白这里的操作说明。我该怎么做你的指示? (2认同)

Sel*_*lva 10

只是spark-submit mypythonfile.py应该够了.


Aru*_*lai 6

您可以执行“script.py”如下

pyspark < script.py
Run Code Online (Sandbox Code Playgroud)

或者

# if you want to run pyspark in yarn cluster
pyspark --master yarn < script.py
Run Code Online (Sandbox Code Playgroud)