如何在spark 2.1.0中点火提交python文件?

Kal*_*yan 5 apache-spark apache-spark-sql pyspark pyspark-sql spark-submit

我目前正在运行spark 2.1.0.我大部分时间都在PYSPARK shell中工作,但是我需要spark-submit一个python文件(类似于java中的spark-submit jar).你是如何在python中做到的?

Him*_*oon 11

pythonfile.py

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("appName").getOrCreate()
sc = spark.sparkContext
rdd = sc.parallelize([1,2,3,4,5,6,7])
print(rdd.count())
Run Code Online (Sandbox Code Playgroud)

使用您想要的配置运行上述程序:例如:

 YOUR_SPARK_HOME/bin/spark-submit --master yourSparkMaster --num-executors 20 \
        --executor-memory 1G --executor-cores 2 --driver-memory 1G \
        pythonfile.py
Run Code Online (Sandbox Code Playgroud)

这些选项不是强制性的.你甚至可以跑

YOUR_SPARK_HOME/bin/spark-submit --master sparkMaster/local pythonfile.py
Run Code Online (Sandbox Code Playgroud)