我有一个文件名的RDD,所以RDD [String].我通过并行化文件名列表(hdfs中的文件)得到它.
现在我映射这个rdd,我的代码使用FileSystem.open(path)打开一个hadoop流.然后我处理它.
当我运行任务时,我使用spark UI/Stages,我看到所有任务的"Locality Level"="PROCESS_LOCAL".我不认为spark可能像我运行任务一样(在4个数据节点的集群上)实现数据局部性,这怎么可能?
hadoop hdfs apache-spark
apache-spark ×1
hadoop ×1
hdfs ×1