Spark Dataframe的分区数

Question

任何人都可以解释将为Spark Dataframe创建的分区数量.

我知道对于RDD,在创建它时我们可以提到下面的分区数量.

val RDD1 = sc.textFile("path" , 6)

但是对于Spark数据帧,在创建时看起来我们没有选择指定像RDD那样的分区数.

我认为只有在创建数据框架后我们可以使用重新分区API.

df.repartition(4)

因此,如果我们可以在创建数据帧时指定分区数量,请告诉我们.

Answer 1

你不能,或者至少不是一般情况下,但与RDD相比没有那么不同.例如,textFile您提供的示例代码仅对最小分区数设置了限制.

一般来说:

Datasets使用类似range或toDF本地集合的方法在本地生成将使用spark.default.parallelism.
Datasets从RDD其父级继承多个分区创建.
Datsets 使用数据源API创建:
- 在Spark 1.x中,通常依赖于Hadoop配置(最小/最大分割大小).
- 在Spark 2.x中,正在使用Spark SQL特定配置.
某些数据源可能提供其他选项,可以更好地控制分区.例如,JDBC源允许您设置分区列,值范围和所需的分区数.