小编Jon*_*nLe的帖子

Spark中什么是分区?

我想了解 Spark 中的分区是什么?

我的理解是,当我们从源读取数据并将其放入任何特定的位置Datatset时,该数据集可以分为多个sub-Datasets,这些sub-Datasets称为分区,它取决于 Spark 框架在集群中的位置和分布方式。这是对的吗 ?

当我看到一些网上文章时,我产生了疑问,其中说

在底层,它们RDDs or Datasets存储在不同集群节点上的分区中。分区基本上是大型分布式数据集的逻辑块

这句话打破了我的理解。根据上述陈述,RDDs or Datasets位于分区内。但我认为 RDD 本身就是一个分区(分割后)。

谁能帮我消除这个疑问?

这是我的代码片段,我正在从 JSON 中读取数据。

Dataset<Row> ds = spark.read().schema(Jsonreadystructure.SCHEMA)
                .json(JsonPath);
Run Code Online (Sandbox Code Playgroud)

那么,在阅读本身时,如何将其拆分为多个分区?或者还有其他办法吗?

java apache-spark

1
推荐指数
1
解决办法
1501
查看次数

标签 统计

apache-spark ×1

java ×1