Spark是否在数据所在的相同节点上安排工作人员？

Question

谷歌MapReduce论文表示,工作人员被安排在与数据相同的节点上,或者如果可能的话,至少在同一个机架上.我没有阅读整个Hadoop文档,但我认为如果可能的话,它会将计算移动到数据,而不是计算的数据.

(当我第一次了解Hadoop时,从HDFS到工作人员的所有数据都必须通过TCP连接,即使工作人员与数据位于同一节点上.这仍然是这种情况吗？)

无论如何,使用Apache Spark,工作人员是否会在与数据相同的节点上进行调度,或者RDD概念是否会使其难以实现？

Answer 1

一般来说,这取决于.星火承认地方的多层次(包括PROCESS_LOCAL,NODE_LOCAL,RACK_LOCAL),并试图安排任务,以达到最佳的地区水平.见数据局部性的调整星火

可以使用spark.locality.*属性控制确切的行为.它包括在选择具有较低位置的节点之前调度程序等待空闲资源的时间量.见计划在星火配置.