vy3*_*y32 3 hadoop apache-spark rdd
谷歌MapReduce论文表示,工作人员被安排在与数据相同的节点上,或者如果可能的话,至少在同一个机架上.我没有阅读整个Hadoop文档,但我认为如果可能的话,它会将计算移动到数据,而不是计算的数据.
(当我第一次了解Hadoop时,从HDFS到工作人员的所有数据都必须通过TCP连接,即使工作人员与数据位于同一节点上.这仍然是这种情况吗?)
无论如何,使用Apache Spark,工作人员是否会在与数据相同的节点上进行调度,或者RDD概念是否会使其难以实现?
归档时间: |
|
查看次数: |
249 次 |
最近记录: |