我正在尝试根据查询从 DB2 数据库中读取数据。查询的结果集大约有 20 - 4000 万条记录。DF 的分区是基于整数列完成的。
我的问题是,一旦加载数据,如何检查每个分区创建了多少记录。基本上我想检查的是数据倾斜是否发生?如何检查每个分区的记录数?
我需要使用Spark SQL从DB2数据库读取数据(因为不存在Sqoop)
我知道这个功能,它将通过打开多个连接以并行方式读取数据
jdbc(url: String, table: String, columnName: String, lowerBound: Long,upperBound: Long, numPartitions: Int, connectionProperties: Properties)
我的问题是我没有像这样的增量列。我还需要通过Query读取数据,因为我的表很大。是否有人知道通过API读取数据的方式,还是我必须自己创建一些内容