小编oir*_*ine的帖子

是否应该在数据集上同时使用缓存和检查点？如果是这样，它如何在后台运行？

我正在一个Spark ML管道上工作，在该管道上我们会在较大的数据集上看到OOM错误。在训练之前我们正在使用cache(); 我换了一下checkpoint()，我们的内存需求大大下降了。然而，在文档进行RDD的checkpoint()，它说：

强烈建议将该RDD保留在内存中，否则将其保存在文件中将需要重新计算。

DataSet我正在使用的检查点未提供相同的指导。无论如何，遵循以上建议，我发现cache()单独使用内存的需求实际上有所增加。

我的期望是当我们这样做时

...
ds.cache()
ds.checkpoint()
...

Run Code Online (Sandbox Code Playgroud)

对检查点的调用会强制对进行评估，该评估会DataSet在被检查点之前同时缓存。之后，任何对的引用都ds将引用缓存的分区，并且如果需要更多的内存并且将分区撤离，将使用检查点分区，而不是重新评估它们。这是真的吗，还是在幕后发生了什么变化？理想情况下，如果可能的话，我希望将DataSet保留在内存中，但是从内存的角度来看，使用缓存和检查点方法似乎没有任何好处。

apache-spark apache-spark-sql apache-spark-dataset

oir*_*ine

2019 06-22

5
推荐指数

1
解决办法

124
查看次数

标签统计

apache-spark ×1

apache-spark-dataset ×1

apache-spark-sql ×1

是否应该在数据集上同时使用缓存和检查点？如果是这样，它如何在后台运行？

标签 统计

小编oir_ine的帖子

标签统计