Apache spark- bigdata

Question

假设我们有100 GB的文件.我的系统是60gb.Aow apache spark会处理这些数据吗？我们都知道spark基于集群自己执行分区.但是当内存量减少时,我想知道火花是如何处理它的

Answer 1

简而言之:Spark不需要将完整数据集同时放入内存中.但是,某些操作可能要求数据集的整个分区适合内存.请注意,Spark允许您控制分区的数量(以及它们的大小).

有关详细信息,请参阅此主题.

还值得注意的是,Java对象通常比原始数据占用更多空间,因此您可能需要查看此内容.