将 pyspark 脚本提交到远程 Spark 服务器？

Question

将 pyspark 脚本提交到远程 Spark 服务器？

aco*_*aco 6 amazon-emr apache-spark pyspark

这可能是一个非常愚蠢的问题，但我无法通过 Google 找到答案。我编写了一个简单的 pyspark ETL 脚本，该脚本读取 CSV 并将其写入 Parquet，如下所示：

spark = SparkSession.builder.getOrCreate()
sqlContext = SQLContext(spark.sparkContext)
df = sqlContext.read.csv(input_filename)
df.write.parquet(output_path)

Run Code Online (Sandbox Code Playgroud)

为了运行它，我在 Docker 中启动了一个本地 Spark 集群：

$ docker run --network=host jupyter/pyspark-notebook

Run Code Online (Sandbox Code Playgroud)

我运行 Python 脚本，它连接到这个本地 Spark 集群，一切都按预期工作。

现在我想在远程 Spark 集群 (AWS EMR) 上运行相同的脚本。我可以在初始化 Spark 上下文时在某处指定一个远程 IP 地址吗？还是我误解了 Spark 的工作原理？

Answer 1

Har*_*ton 4

您可以通过指定远程master的IP地址来创建spark会话。

spark = SparkSession.builder.master("spark://<ip>:<port>").getOrCreate()

Run Code Online (Sandbox Code Playgroud)

对于 AWS EMR，不支持独立模式。您需要在客户端或集群模式下使用yarn，并将HADOOP_CONF_DIR指向本地服务器上/etc/hadoop/conf中的所有文件都存在的位置。然后设置动态端口转发以连接到 EMR 集群。创建一个 Spark 会话，例如：

spark = SparkSession.builder.master('yarn').config('spark.submit.deployMode', 'cluster').getOrCreate()

Run Code Online (Sandbox Code Playgroud)

请参阅https://aws.amazon.com/premiumsupport/knowledge-center/emr-submit-spark-job-remote-cluster/

归档时间：	7 年前
查看次数：	7562 次
最近记录：	7 年前