如果RDD无法适应Spark中的内存会发生什么？

Question

据我所知,Spark会尝试在内存中进行所有计算,除非您使用磁盘存储选项调用persist.但是,如果我们不使用任何持久性,当RDD不适合内存时,Spark会做什么？如果我们有非常庞大的数据怎么办？Spark如何处理它而不会崩溃？

Answer 1

来自Apache Spark常见问题解答:

如果Spark的运算符不适合内存,它可以将数据溢出到磁盘,从而可以在任何大小的数据上运行良好.同样,不适合内存的缓存数据集要么溢出到磁盘,要么在需要时动态重新计算,这由RDD的存储级别决定.

请参阅以下链接,了解有关存储级别以及如何在这些级别之间选择合适的存储级别的更多信息:programming-guide.html