相关疑难解决方法(0)

PySpark:完全清理检查点

根据文档,可以告诉 Spark 跟踪“超出范围”的检查点——那些不再需要的检查点——并从磁盘中清除它们。

SparkSession.builder
  ...
  .config("spark.cleaner.referenceTracking.cleanCheckpoints", "true")
  .getOrCreate()
Run Code Online (Sandbox Code Playgroud)

显然它这样做了,但问题是,最后一个检查点的 rdd 永远不会被删除。

  • 执行所有清理时是否缺少任何配置?
  • 如果没有:有没有办法获取为特定应用程序创建的临时文件夹的名称,以便我可以以编程方式删除它?即0c514fb8-498c-4455-b147-aff242bd7381SparkContext相同的方式获取applicationId

apache-spark pyspark

5
推荐指数
1
解决办法
2951
查看次数

标签 统计

apache-spark ×1

pyspark ×1