小编Sid*_*ant的帖子

Spark 是否在内部跨节点分发数据帧?

我正在尝试使用 Spark 处理集群上的 csv 文件。我想了解是否需要显式读取每个工作节点上的文件以并行处理,或者驱动程序节点是否会读取文件并跨集群分发数据以进行内部处理?(我正在使用 Spark 2.3.2 和 Python)

我知道 RDD 可以使用 SparkContext.parallelize() 进行并行化,但是在 Spark DataFrames 的情况下呢?

if __name__=="__main__":
     spark=SparkSession.builder.appName('myApp').getOrCreate()
     df=spark.read.csv('dataFile.csv',header=True)
     df=df.filter("date>'2010-12-01' AND date<='2010-12-02' AND town=='Madrid'")
Run Code Online (Sandbox Code Playgroud)

因此,如果我在集群上运行上面的代码,整个操作是由驱动程序节点完成的,还是会跨集群分发 df 并且每个工作人员在其数据分区上执行处理?

apache-spark apache-spark-sql pyspark

4
推荐指数
1
解决办法
1867
查看次数

标签 统计

apache-spark ×1

apache-spark-sql ×1

pyspark ×1