相关疑难解决方法(0)

Spark分区(ing)如何处理HDFS中的文件?

我正在使用HDFS在集群上使用Apache Spark.据我了解,HDFS正在数据节点上分发文件.因此,如果在文件系统上放置"file.txt",它将被拆分为分区.现在我在打电话

rdd = SparkContext().textFile("hdfs://.../file.txt") 
Run Code Online (Sandbox Code Playgroud)

来自Apache Spark.rdd现在自动与文件系统上的"file.txt"分区相同吗?我打电话时会发生什么

rdd.repartition(x)
Run Code Online (Sandbox Code Playgroud)

其中x>那么hdfs使用的分区?Spark会在物理上重新排列hdfs上的数据以在本地工作吗?

示例:我在HDFS系统上放置了一个30GB的文本文件,它将它分发到10个节点上.Will Spark a)使用相同的10个分区吗?和b)当我调用重新分区(1000)时,在群集中洗牌30GB?

hdfs apache-spark

47
推荐指数
4
解决办法
3万
查看次数

标签 统计

apache-spark ×1

hdfs ×1