相关疑难解决方法(0)

我正在使用HDFS在集群上使用Apache Spark.据我了解,HDFS正在数据节点上分发文件.因此,如果在文件系统上放置"file.txt",它将被拆分为分区.现在我在打电话

rdd = SparkContext().textFile("hdfs://.../file.txt")

来自Apache Spark.rdd现在自动与文件系统上的"file.txt"分区相同吗？我打电话时会发生什么

rdd.repartition(x)

其中x>那么hdfs使用的分区？Spark会在物理上重新排列hdfs上的数据以在本地工作吗？

示例:我在HDFS系统上放置了一个30GB的文本文件,它将它分发到10个节点上.Will Spark a)使用相同的10个分区吗？和b)当我调用重新分区(1000)时,在群集中洗牌30GB？

47
推荐指数

4
解决办法

3万
查看次数