相关疑难解决方法(0)

spark.sql.shuffle.partitions和spark.default.parallelism有什么区别?

spark.sql.shuffle.partitions和之间有什么区别spark.default.parallelism

我试图将它们都设置为SparkSQL,但第二阶段的任务编号始终为200.

performance hadoop bigdata apache-spark apache-spark-sql

54
推荐指数
3
解决办法
6万
查看次数

Spark中读取HDFS时的任务数

在此输入图像描述ORC 格式的非格式化表中有 200 个文件。每个文件约170KB。总大小约33MB。

想知道为什么 Spark 阶段读取表会生成 7 个任务。该作业分配给一个具有 5 个核心的执行器。

apache-spark

7
推荐指数
1
解决办法
1537
查看次数