如何检查 RDD

dev*_*v ツ 5 apache-spark rdd pyspark

火花2.4.0


rdd = rdd.cache()
print(rdd.getStorageLevel())
Run Code Online (Sandbox Code Playgroud)

内存序列化 1x 复制

sc.setCheckpointDir("/tmp/checkpoints")
rdd.checkpoint()
Run Code Online (Sandbox Code Playgroud)

对 rdd 的操作

rdd.count()
Run Code Online (Sandbox Code Playgroud)

25066

检查是否有检查点:

rdd.isCheckpointed()
Run Code Online (Sandbox Code Playgroud)

错误的

print(rdd.getCheckpointFile())
Run Code Online (Sandbox Code Playgroud)

错误的

Sal*_*lim 3

我使用 Spark 2.4.2 在独立集群中进行了测试。Checkpoint 也在那里工作。

    spark.sparkContext.setCheckpointDir("temp/")
    val textFile=spark.sparkContext.textFile("test1.txt")
    println("textFile.isCheckpointed = " + textFile.isCheckpointed)
    textFile.checkpoint()
    println("textFile.count() = " + textFile.count())
    println("textFile.isCheckpointed = " + textFile.isCheckpointed)
Run Code Online (Sandbox Code Playgroud)

结果

textFile.isCheckpointed = false
textFile.count() = 8
textFile.isCheckpointed = true
Run Code Online (Sandbox Code Playgroud)