Ana*_*nan 5 apache-spark pyspark
我们正在 pyspark 中构建数据摄取框架。第一步是使用我们的应用程序名称获取/创建一个 SparkSession。dataLoader.py的结构概述如下。
spark = SparkSession \
.builder \
.appName('POC') \
.enableHiveSupport() \
.getOrCreate()
#create data frame from file
#process file
Run Code Online (Sandbox Code Playgroud)
如果我必须同时执行此dataLoader.py来加载不同的文件,那么相同的 Spark 会话会导致问题吗?我是否必须为每次摄取创建单独的 Spark 会话?
不,您不会创建多个 Spark 会话。每个 Spark 应用程序只能创建一次 Spark 会话。Spark 不支持此功能,如果您在同一个 Spark 作业中使用多个 Spark 会话,您的作业可能会失败。这是SPARK-2243,spark 已经关闭了票证,表示不会修复它。
如果你想使用加载不同的文件dataLoader.py有两个选项
按顺序加载和处理文件。在这里,您一次加载一个文件;将其保存到数据帧并处理该数据帧。
为不同的文件创建不同的dataLoader.py脚本并并行运行每个 Spark 作业。这里每个 Spark 作业都有自己的 SparkSession。
| 归档时间: |
|
| 查看次数: |
4468 次 |
| 最近记录: |