小编Sau*_*rma的帖子

我正在尝试根据查询从 DB2 数据库中读取数据。查询的结果集大约有 20 - 4000 万条记录。DF 的分区是基于整数列完成的。

我的问题是，一旦加载数据，如何检查每个分区创建了多少记录。基本上我想检查的是数据倾斜是否发生？如何检查每个分区的记录数？

5
推荐指数

2
解决办法

8070
查看次数

我需要使用Spark SQL从DB2数据库读取数据（因为不存在Sqoop）

我知道这个功能，它将通过打开多个连接以并行方式读取数据

jdbc(url: String, table: String, columnName: String, lowerBound: Long,upperBound: Long, numPartitions: Int, connectionProperties: Properties)

我的问题是我没有像这样的增量列。我还需要通过Query读取数据，因为我的表很大。是否有人知道通过API读取数据的方式，还是我必须自己创建一些内容

4
推荐指数

2
解决办法

9916
查看次数

小编Sau_rma的帖子