通过JDBC从RDBMS读取时分区为spark

Question

我在集群模式下运行spark并通过JDBC从RDBMS读取数据.

根据Spark 文档,这些分区参数描述了在从多个worker并行读取时如何对表进行分区:

这些是可选参数.

如果我不指定这些,会发生什么:

Answer 1

如果没有指定{ partitionColumn,lowerBound,upperBound,numPartitions}或{ predicates}星火将使用一个执行者,并创建一个非空分区.所有数据都将使用单个事务处理,并且读取既不会分发也不会并行化.

也可以看看: