相关疑难解决方法(0)

我有一个文件名的RDD,所以RDD [String].我通过并行化文件名列表(hdfs中的文件)得到它.

现在我映射这个rdd,我的代码使用FileSystem.open(path)打开一个hadoop流.然后我处理它.

当我运行任务时,我使用spark UI/Stages,我看到所有任务的"Locality Level"="PROCESS_LOCAL".我不认为spark可能像我运行任务一样(在4个数据节点的集群上)实现数据局部性,这怎么可能？

6
推荐指数

2
解决办法

2602
查看次数