use*_*186 3 apache-spark spark-structured-streaming
我有一个 Spark 的结构化流应用程序,带有检查点以在 parquet 中写入输出并使用默认的 spark.sql.shuffle.partitions = 200。我需要更改随机分区,但未使用新值。这是应用程序重新启动后检查点偏移量的内容:
{"batchWatermarkMs":1520054221000,"batchTimestampMs":1520054720003,"conf":{"spark.sql.shuffle.partitions":"200"}}
Run Code Online (Sandbox Code Playgroud)
我是否需要在代码中设置分区数而不是使用 --conf 进行设置?
该数字是从检查点恢复的,只有当您删除检查点数据并使用“干净的石板”重新启动它时才会更改。
这是有道理的,因为如果您有检查点数据,Spark 需要知道它需要从多少个分区目录中恢复以前的状态。
| 归档时间: |
|
| 查看次数: |
959 次 |
| 最近记录: |