小编Jon*_*nLe的帖子

我想了解 Spark 中的分区是什么？

我的理解是，当我们从源读取数据并将其放入任何特定的位置Datatset时，该数据集可以分为多个sub-Datasets，这些sub-Datasets称为分区，它取决于 Spark 框架在集群中的位置和分布方式。这是对的吗？

当我看到一些网上文章时，我产生了疑问，其中说

在底层，它们RDDs or Datasets存储在不同集群节点上的分区中。分区基本上是大型分布式数据集的逻辑块

这句话打破了我的理解。根据上述陈述，RDDs or Datasets位于分区内。但我认为 RDD 本身就是一个分区（分割后）。

谁能帮我消除这个疑问？

这是我的代码片段，我正在从 JSON 中读取数据。

Dataset<Row> ds = spark.read().schema(Jsonreadystructure.SCHEMA)
                .json(JsonPath);

那么，在阅读本身时，如何将其拆分为多个分区？或者还有其他办法吗？

1
推荐指数

1
解决办法

1501
查看次数

小编Jon_nLe的帖子