dev*_*v ツ 5 apache-spark rdd pyspark
火花2.4.0
rdd = rdd.cache()
print(rdd.getStorageLevel())
Run Code Online (Sandbox Code Playgroud)
内存序列化 1x 复制
sc.setCheckpointDir("/tmp/checkpoints")
rdd.checkpoint()
Run Code Online (Sandbox Code Playgroud)
对 rdd 的操作
rdd.count()
Run Code Online (Sandbox Code Playgroud)
25066
检查是否有检查点:
rdd.isCheckpointed()
Run Code Online (Sandbox Code Playgroud)
错误的
print(rdd.getCheckpointFile())
Run Code Online (Sandbox Code Playgroud)
错误的
我使用 Spark 2.4.2 在独立集群中进行了测试。Checkpoint 也在那里工作。
spark.sparkContext.setCheckpointDir("temp/")
val textFile=spark.sparkContext.textFile("test1.txt")
println("textFile.isCheckpointed = " + textFile.isCheckpointed)
textFile.checkpoint()
println("textFile.count() = " + textFile.count())
println("textFile.isCheckpointed = " + textFile.isCheckpointed)
Run Code Online (Sandbox Code Playgroud)
结果
textFile.isCheckpointed = false
textFile.count() = 8
textFile.isCheckpointed = true
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
1739 次 |
| 最近记录: |