要创建多少个 Spark Session？

Question

要创建多少个 Spark Session？

我们正在 pyspark 中构建数据摄取框架。第一步是使用我们的应用程序名称获取/创建一个 SparkSession。dataLoader.py的结构概述如下。

spark = SparkSession \
            .builder \
            .appName('POC') \
            .enableHiveSupport() \
            .getOrCreate()
 #create data frame from file
 #process file

Run Code Online (Sandbox Code Playgroud)

如果我必须同时执行此dataLoader.py来加载不同的文件，那么相同的 Spark 会话会导致问题吗？我是否必须为每次摄取创建单独的 Spark 会话？

Answer 1

Avi*_*rya 1

不，您不会创建多个 Spark 会话。每个 Spark 应用程序只能创建一次 Spark 会话。Spark 不支持此功能，如果您在同一个 Spark 作业中使用多个 Spark 会话，您的作业可能会失败。这是SPARK-2243，spark 已经关闭了票证，表示不会修复它。

如果你想使用加载不同的文件dataLoader.py有两个选项

按顺序加载和处理文件。在这里，您一次加载一个文件；将其保存到数据帧并处理该数据帧。
为不同的文件创建不同的dataLoader.py脚本并并行运行每个 Spark 作业。这里每个 Spark 作业都有自己的 SparkSession。

归档时间：	7 年，7 月前
查看次数：	4468 次
最近记录：	7 年，7 月前