小编Ali*_*Ali的帖子

Spark 2.2 数据集巨大时 Join 失败

我目前在尝试使用Spark DataFrame API将一个巨大的数据集(654 GB)与一个较小的数据集(535 MB)(内部)连接时遇到问题。

我使用 Broadcast() 函数将较小的数据集广播到工作节点。

我无法在这两个数据集之间进行连接。这是我收到的错误示例:

19/04/26 19:39:07 INFO executor.CoarseGrainedExecutorBackend: Got assigned task 1315
19/04/26 19:39:07 INFO executor.Executor: Running task 25.1 in stage 13.0 (TID 1315)
19/04/26 19:39:07 INFO output.FileOutputCommitter: File Output Committer Algorithm version is 1
19/04/26 19:39:07 INFO datasources.SQLHadoopMapReduceCommitProtocol: Using output committer class org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter
19/04/26 19:39:07 INFO datasources.FileScanRDD: Reading File path: SOMEFILEPATH, range: 3087007744-3221225472, partition values: [empty row]
19/04/26 19:39:17 INFO datasources.FileScanRDD: Reading File path: SOMEFILEPATH, range: 15971909632-16106127360, partition values: [empty row]
19/04/26 …
Run Code Online (Sandbox Code Playgroud)

join cluster-computing hdfs apache-spark apache-spark-sql

3
推荐指数
1
解决办法
5148
查看次数