我想了解 Spark 中的分区是什么?
我的理解是,当我们从源读取数据并将其放入任何特定的位置Datatset时,该数据集可以分为多个sub-Datasets,这些sub-Datasets称为分区,它取决于 Spark 框架在集群中的位置和分布方式。这是对的吗 ?
当我看到一些网上文章时,我产生了疑问,其中说
在底层,它们
RDDs or Datasets存储在不同集群节点上的分区中。分区基本上是大型分布式数据集的逻辑块
这句话打破了我的理解。根据上述陈述,RDDs or Datasets位于分区内。但我认为 RDD 本身就是一个分区(分割后)。
谁能帮我消除这个疑问?
这是我的代码片段,我正在从 JSON 中读取数据。
Dataset<Row> ds = spark.read().schema(Jsonreadystructure.SCHEMA)
.json(JsonPath);
Run Code Online (Sandbox Code Playgroud)
那么,在阅读本身时,如何将其拆分为多个分区?或者还有其他办法吗?