spark.sql.shuffle.partitions和之间有什么区别spark.default.parallelism?
spark.sql.shuffle.partitions
spark.default.parallelism
我试图将它们都设置为SparkSQL,但第二阶段的任务编号始终为200.
SparkSQL
performance hadoop bigdata apache-spark apache-spark-sql
ORC 格式的非格式化表中有 200 个文件。每个文件约170KB。总大小约33MB。
想知道为什么 Spark 阶段读取表会生成 7 个任务。该作业分配给一个具有 5 个核心的执行器。
apache-spark
apache-spark ×2
apache-spark-sql ×1
bigdata ×1
hadoop ×1
performance ×1