小编kma*_*hur的帖子

如果数据大小超过可用内存,是什么让Spark快速?

在我试图理解火花的每个地方它都说它很快,因为它将数据保存在内存中而不是map reduce.让我们举个例子 -

我有一个5节点火花簇,每个都有100 GB RAM.让我们说我有500 TB的数据来运行一个火花工作.现在火花可以保持的总数据是100*5 = 500 GB.如果它可以在任何时间点仅在内存中保留最多500 GB的数据,那么是什么让它快速闪电?

hadoop bigdata apache-spark

3
推荐指数
1
解决办法
689
查看次数

标签 统计

apache-spark ×1

bigdata ×1

hadoop ×1