Pon*_*iya 2 bigdata apache-spark
假设我们有100 GB的文件.我的系统是60gb.Aow apache spark会处理这些数据吗?我们都知道spark基于集群自己执行分区.但是当内存量减少时,我想知道火花是如何处理它的
简而言之:Spark不需要将完整数据集同时放入内存中.但是,某些操作可能要求数据集的整个分区适合内存.请注意,Spark允许您控制分区的数量(以及它们的大小).
有关详细信息,请参阅此主题.
还值得注意的是,Java对象通常比原始数据占用更多空间,因此您可能需要查看此内容.
另外我建议看一下Apache Spark:内存管理和优雅降级
归档时间: |
|
查看次数: |
259 次 |
最近记录: |