sal*_*nbw 2 hadoop hdfs apache-spark
我最近在进行火花工作,遇到了一些我仍然无法解决的查询。
假设我有一个100GB的数据集,而我的群集内存大小为16 GB。
现在,我知道在简单读取文件并将其保存在HDFS中的情况下,Spark会对每个分区执行此操作。对100GB数据执行排序或聚合转换时会发生什么?由于排序时需要全部数据,它将如何处理100GB的内存?
我已经浏览了下面的链接,但这仅告诉我们在持久存在的情况下spark会执行什么操作,我正在寻找的是Spark聚合或对大于ram大小的数据集进行排序。
任何帮助表示赞赏。
您可能想知道两件事。
Answering your question, you do not really need that your data fit in memory in order to sort it, as I explained to you before. Now, I would encourage you to think about an algorithm for data aggregation dividing the data by chunks, just like external sort does.
| 归档时间: |
|
| 查看次数: |
738 次 |
| 最近记录: |