相关疑难解决方法(0)

spark.sql.shuffle.partitions和spark.default.parallelism有什么区别？

spark.sql.shuffle.partitions和之间有什么区别spark.default.parallelism？

我试图将它们都设置为SparkSQL,但第二阶段的任务编号始终为200.

performance hadoop bigdata apache-spark apache-spark-sql

54
推荐指数

3
解决办法

6万
查看次数

Spark中读取HDFS时的任务数

ORC 格式的非格式化表中有 200 个文件。每个文件约170KB。总大小约33MB。

想知道为什么 Spark 阶段读取表会生成 7 个任务。该作业分配给一个具有 5 个核心的执行器。

7
推荐指数

1
解决办法

1537
查看次数

标签统计

apache-spark ×2

apache-spark-sql ×1

performance ×1