检查点后未使用新的 spark.sql.shuffle.partitions 值

Question

我有一个 Spark 的结构化流应用程序，带有检查点以在 parquet 中写入输出并使用默认的 spark.sql.shuffle.partitions = 200。我需要更改随机分区，但未使用新值。这是应用程序重新启动后检查点偏移量的内容：

{"batchWatermarkMs":1520054221000,"batchTimestampMs":1520054720003,"conf":{"spark.sql.shuffle.partitions":"200"}}

我是否需要在代码中设置分区数而不是使用 --conf 进行设置？

Answer 1

该数字是从检查点恢复的，只有当您删除检查点数据并使用“干净的石板”重新启动它时才会更改。

这是有道理的，因为如果您有检查点数据，Spark 需要知道它需要从多少个分区目录中恢复以前的状态。