小编Sau*_*rma的帖子

需要了解 Dataframe Spark 中的分区细节

我正在尝试根据查询从 DB2 数据库中读取数据。查询的结果集大约有 20 - 4000 万条记录。DF 的分区是基于整数列完成的。

我的问题是,一旦加载数据,如何检查每个分区创建了多少记录。基本上我想检查的是数据倾斜是否发生?如何检查每个分区的记录数?

apache-spark apache-spark-sql spark-dataframe

5
推荐指数
2
解决办法
8070
查看次数

如何在Parallel中的Spark中从DB读取数据

我需要使用Spark SQL从DB2数据库读取数据(因为不存在Sqoop)

我知道这个功能,它将通过打开多个连接以并行方式读取数据

jdbc(url: String, table: String, columnName: String, lowerBound: Long,upperBound: Long, numPartitions: Int, connectionProperties: Properties)

我的问题是我没有像这样的增量列。我还需要通过Query读取数据,因为我的表很大。是否有人知道通过API读取数据的方式,还是我必须自己创建一些内容

apache-spark apache-spark-sql spark-dataframe

4
推荐指数
2
解决办法
9916
查看次数